AI Agent

Harbor Framework 调研：Agent Eval & RL Roullout

写作背景下午听了一个关于 Harbor 的分享，正好和手头做的 Eval Harness 的事情相关，就做一下深入了解，也许能得到有价值的输入。目前很多社区工具 or 框架都可以用来做 rollout、 eval 的事，但各自的关注点不同，比如 SWE-agent，它更像一个 coding agent scaffold，专心跑产物； SWE-bench harness 则专注 patch 评测工具；而本文分析的 Harbor 更像把任务、沙箱、Agent、verifier、reward 和指标聚合串起来的外层执行框架，该框架由 Terminal-Bench 团队推出，GitHub：harbor-framework/harbor ...

Claude Code 官方技术复盘和 Harness 设计启示

本文基于 Anthropic 官方技术复盘 An update on recent Claude Code quality reports 与中文媒体分析，从工程视角解构一次典型的 AI 产品层质量事故，并提炼对 Harness 设计的通用参考。一、事件背景：当「最强编程模型」口碑滑坡 2026 年 3 月至 4 月期间，大量 Claude Code 用户在 Hacker News、Reddit 和 X 上反馈模型「变笨了」—— 输出变得健忘、重复、废话连篇，甚至在复杂任务中表现明显退步。 ...

AI 浏览器自动化工具对比

这篇文章主要对 browser-use、Chrome DevTools MCP 和 agent-browser 三类工具做一个并排分析，方便在不同场景下做选型。它们看起来都属于“AI + 浏览器自动化”，但本质上处于不同抽象层： ...

Ralph Loop：让 AI 自己跑完全程

一句话定义：Ralph Loop 是一个"把 AI 放进 while true 里"的自主迭代开发技术——你定义终点，AI 自己跑，跑完为止。是什么 Ralph Loop（也叫 Ralph Wiggum Loop）： ...

Agent Skills：从概念到实践的技术剖析

一、前言想象一下，你雇了一位实习生，开始时你教了一些规范： “我们公司的 PPT 要用这个颜色，这个字体，Logo 放左上角……” “代码审查要检查这些安全项，那些性能点……” ...