Ask HN: What are some good benchmarks for different agent harnesses?

3 points by Bnjoroge a day ago · 1 comment · 1 min read

Other than terminal bench which doesnt quite map to my experience, what are some other benchmarks to see how different models do in different harnesses?