Arena.ai startet die Agent Arena, einen Benchmark für autonome KI-Agenten basierend auf echten Nutzersitzungen statt kün...

Arena.ai startet die Agent Arena, einen Benchmark für autonome KI-Agenten basierend auf echten Nutzersitzungen statt künstlichen Tests.Der Test wertet über 330.000 Sitzungen aus, um die Orchestrierung mehrstufiger Aufgaben zu bewerten. OpenAI und Anthropic führen das Leaderboard an, während Google und DeepSeek zurückliegen. Hauptanwendungsfall bleibt die Softwareentwicklung.#ArenaAI #LLM #Benchmark #OpenAI #AIGeneratedImagehttps://www.all-ai.de/news/news26top/arena-ki-agent-rangliste

Read Original

Related