<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Terminal-Bench on CJ&#39;s Blog</title>
    <link>https://cjraft.github.io/tags/terminal-bench/</link>
    <description>Recent content in Terminal-Bench on CJ&#39;s Blog</description>
    <generator>Hugo -- 0.157.0</generator>
    <language>zh-CN</language>
    <lastBuildDate>Sat, 06 Jun 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://cjraft.github.io/tags/terminal-bench/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Harbor Framework 调研：Agent Eval &amp; RL Roullout</title>
      <link>https://cjraft.github.io/articles/harbor-research-report/</link>
      <pubDate>Fri, 05 Jun 2026 00:00:00 +0000</pubDate>
      <guid>https://cjraft.github.io/articles/harbor-research-report/</guid>
      <description>&lt;h2 id=&#34;写作背景&#34;&gt;写作背景&lt;/h2&gt;
&lt;p&gt;下午听了一个关于 Harbor 的分享， 正好和手头做的 Eval Harness 的事情相关， 就做一下深入了解， 也许能得到有价值的输入。 目前很多社区工具 or 框架都可以用来做 rollout、 eval 的事，但各自的关注点不同， 比如 SWE-agent， 它更像一个 coding agent scaffold， 专心跑产物； SWE-bench harness 则专注 patch 评测工具； 而本文分析的 Harbor 更像把任务、沙箱、Agent、verifier、reward 和指标聚合串起来的外层执行框架， 该框架由 Terminal-Bench 团队推出，GitHub：&lt;a href=&#34;https://github.com/harbor-framework/harbor&#34;&gt;harbor-framework/harbor&lt;/a&gt;&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
