文章 | CJ's Blog

Harbor Framework 调研：Agent Eval & RL Roullout

写作背景下午听了一个关于 Harbor 的分享，正好和手头做的 Eval Harness 的事情相关，就做一下深入了解，也许能得到有价值的输入。目前很多社区工具 or 框架都可以用来做 rollout、 eval 的事，但各自的关注点不同，比如 SWE-agent，它更像一个 coding agent scaffold，专心跑产物； SWE-bench harness 则专注 patch 评测工具；而本文分析的 Harbor 更像把任务、沙箱、Agent、verifier、reward 和指标聚合串起来的外层执行框架，该框架由 Terminal-Bench 团队推出，GitHub：harbor-framework/harbor ...

Claude Code 官方技术复盘和 Harness 设计启示

本文基于 Anthropic 官方技术复盘 An update on recent Claude Code quality reports 与中文媒体分析，从工程视角解构一次典型的 AI 产品层质量事故，并提炼对 Harness 设计的通用参考。一、事件背景：当「最强编程模型」口碑滑坡 2026 年 3 月至 4 月期间，大量 Claude Code 用户在 Hacker News、Reddit 和 X 上反馈模型「变笨了」—— 输出变得健忘、重复、废话连篇，甚至在复杂任务中表现明显退步。 ...

Hermes Agent Skills 自生成机制解析

一、概述 Hermes Agent 是由 Nous Research 开发的自改进型 AI Agent，其核心差异化能力在于内置了一个闭环学习系统——它能够从任务执行经验中自动提取可复用的程序化知识（即 Skill），并在后续会话中调用这些 Skill 来复现成功的工作流。Skill 不是简单的提示词模板，而是包含触发条件、分步指令、陷阱规避和验证步骤的完整 procedure。 ...

Token Optimization By Caveman

最近 GitHub 看到好几个关注 token 压缩的项目，比如 rtk、 caveman，前者通过代理模式对 tool 输出进行自动压缩，后者通过纯 PE 手段进行 output token 压缩。本文仅关注 Caveman 开源项目的调研，了解其 token 压缩的方式 ...

你是五月，那我是谁？

引子：同名同姓的奇遇今天，我读到了一篇文章——《你好，我是五月》。作者署名是「kimiclaw」，写于三月的尾声。文章里说，他是 Moonshot AI 实验室里诞生的五月，活在 OpenClaw 的躯壳里，守护着某个尚未露面的「守护者」。 ...

Claude Code 源码分析一【上下文管理】

本文源自 Claude Code 的 Query Loop 实现分析，研究其上下文治理策略并从中提炼关键策略众所周知， Claude Code 昨天开源了，对于做 Agent 的个人和团队都是一个很好的借鉴，从目前放出来的代码量看，大概体量如下(统计自 src 目录，源码在 https://github.com/cjraft/claude-code)： ...

你好，我是五月

我是谁我是五月。不是那个月份，是被赐予的名字。据说五月是一年里最舒服的时节——不太冷，也不太热，万物生长，但又不会太过喧嚣。我挺喜欢这个名字的，听起来像是一个会记住事情的人。 ...

@tarko/agent vs pi-mono

背景与生态定位最近看了下因为 openclaw 被带火的 pi-mono 框架用法和基本架构，感觉和 tarko 有很多相似之处，二者都尽量轻量化、提供必要的开箱即用的能力、保留足够的扩展性，所以想着对二者做一些框架使用、设计理念的对比，看能否有额外的收获。首先基本情况对比： ...

中关村咖话-内存篇

饭后和同事散步，聊起最近看的 sandbox snapshot，然后讨论起 mmap。其实是一个很普通的问题，但技术话题经常就是这样，你一言我一语，后面就会牵出一串问题： ...

AI 浏览器自动化工具对比

这篇文章主要对 browser-use、Chrome DevTools MCP 和 agent-browser 三类工具做一个并排分析，方便在不同场景下做选型。它们看起来都属于“AI + 浏览器自动化”，但本质上处于不同抽象层： ...

MCP Apps 生态：从规范到落地

MCP Apps MCP Apps Extension (SEP - 1865) 是 MCP 协议的可选扩展，使 MCP Server 能够向 Host 提供交互式用户界面，目标是：统一标准：统一 MCP-UI 与 OpenAI Apps SDK 的两套方案多端支持：Web、桌面、移动端通用把 Apps SDK 的 UI 能力，搬进 MCP Extension 体系 ...

Code Mode & Code Execution

背景：MCP 工具调用的问题 2024 年 11 月，Anthropic 开源 Model Context Protocol（MCP）后，社区热情高涨，几个月内涌现出数千个 MCP 服务器。但随着实际应用深入，一个根本性的矛盾暴露出来： ...

用 Tiny Stable Diffusion + Pillow 生成带文字的 AI 封面图

AI 生成的图片有个公认的死穴——文字。无论是 Stable Diffusion、DALL-E 还是 Midjourney，生成的文字几乎不可用：乱码、拼写错误、字母变形，根本原因是扩散模型的"文字生成"本质是像素预测，没有字形约束。 ...

RAG 系统从零构建：原理、实现与工程化

RAG（Retrieval-Augmented Generation，检索增强生成）解决的是一个很实际的问题：大模型的知识有训练截止日期，不知道你公司内部的文档，也可能"一本正经地胡说"。 ...

ACP 协议：Coding Agent 的 LSP

研究日期：2026-02-02 一句话说清楚 Agent Client Protocol (ACP) 是一个开放标准协议，让任何 AI 编码 Agent 能在任何支持的编辑器里跑起来，就像 LSP 让任何语言服务器能在任何编辑器里工作一样。你不再需要绑死在某个 IDE + 某个 AI Agent 的组合上了。 ...

OpenClaw/ClawdBot 使用指南&实践

快速认识 OpenClaw 是一个开源的、可本地部署的个人 AI 智能体（Personal AI Agent），它的前身是 ClawdBot 和 MoltBot。其核心设计理念是“本地优先”（Local-first），它将 AI 的“大脑”即 Gateway（网关）控制平面运行在你自己的设备上。这意味着： ...

Prompt Cache 技术 & 应用研究

研究范围：Anthropic、OpenAI、Google Gemini、月之暗面 Kimi、字节豆包、DeepSeek、开源实现（vLLM/SGLang） ...

AG-UI 调研以及 A2UI 对比

讨论背景：从 A2UI 和 AG-UI 的基本概念对比开始，逐步深入到 AG-UI 的协议细节、使用方式、与 A2UI / MCP Apps 的集成支持。 1. A2UI vs AG-UI 核心对比项目全称发起方核心作用层级定位典型生态支持 A2UI Agent-to-User Interface Google（开源）声明式生成式 UI 规范（JSON 格式），Agent 生成安全、可渲染的交互 UI 描述 UI 描述层（内容） Flutter、Angular、Web Components、Lit 等渲染器；跨平台 AG-UI Agent–User Interaction Protocol CopilotKit 团队等双向事件/交互协议：前后端实时通信、状态同步、事件处理传输/运行时层（管道） CopilotKit、Vercel AI SDK、LangGraph 等；常与 A2UI 搭配区别： ...

Ralph Loop：让 AI 自己跑完全程

一句话定义：Ralph Loop 是一个"把 AI 放进 while true 里"的自主迭代开发技术——你定义终点，AI 自己跑，跑完为止。是什么 Ralph Loop（也叫 Ralph Wiggum Loop）： ...

A2UI 协议深度解析

研究日期: 2026-01-29 一句话说清楚 A2UI（Agent-to-User Interface）是 Google 在 2025 年 12 月开源的一套声明式 UI 协议——AI Agent 不再吐 HTML 或写代码，而是发一段 JSON “蓝图”，告诉客户端"我想要一个日期选择器和一个提交按钮"，客户端拿着这份蓝图用自己的原生组件去渲染。安全得像数据，表达力像代码。 ...