Erica (@ericavaneee)실세계 경제 협상에서 LLM 에이전트를 평가하는 3단계 벤치마크 TERMS-Bench를 공개했다. LLM-as-judge나 결과 기반 루브릭 없이, 환경 자체를 검증자로 사용한다....

Erica (@ericavaneee)실세계 경제 협상에서 LLM 에이전트를 평가하는 3단계 벤치마크 TERMS-Bench를 공개했다. LLM-as-judge나 결과 기반 루브릭 없이, 환경 자체를 검증자로 사용한다. 프론티어 모델 중 Claude Opus 4.6이 1위, GLM 5.1이 2위로 언급됐다.https://x.com/ericavaneee/status/2055868536099381638#llm #agents #benchmark #evaluation #anthropic

Read Original

Related