Harbor Framework 调研:Agent Eval & RL Roullout

写作背景 下午听了一个关于 Harbor 的分享, 正好和手头做的 Eval Harness 的事情相关, 就做一下深入了解, 也许能得到有价值的输入。 目前很多社区工具 or 框架都可以用来做 rollout、 eval 的事,但各自的关注点不同, 比如 SWE-agent, 它更像一个 coding agent scaffold, 专心跑产物; SWE-bench harness 则专注 patch 评测工具; 而本文分析的 Harbor 更像把任务、沙箱、Agent、verifier、reward 和指标聚合串起来的外层执行框架, 该框架由 Terminal-Bench 团队推出,GitHub:harbor-framework/harbor ...

2026-06-05 · 34 分钟 · 6145 字 · cjraft