Harbor

写作背景下午听了一个关于 Harbor 的分享，正好和手头做的 Eval Harness 的事情相关，就做一下深入了解，也许能得到有价值的输入。目前很多社区工具 or 框架都可以用来做 rollout、 eval 的事，但各自的关注点不同，比如 SWE-agent，它更像一个 coding agent scaffold，专心跑产物； SWE-bench harness 则专注 patch 评测工具；而本文分析的 Harbor 更像把任务、沙箱、Agent、verifier、reward 和指标聚合串起来的外层执行框架，该框架由 Terminal-Bench 团队推出，GitHub：harbor-framework/harbor ...