ExploitGym: Can AI agents turn bugs into exploits?ExploitGym은 AI 에이전트가 보안 취약점을 실제 공격으로 전환할 수 있는 능력을 평가하는 대규모 벤치마크입니다. 898개의 실제 취약점 사례를 포함하며, Google V8, 리눅스 커널 등 다양한 도메인과 보안 방어 환경을 반영합니다. 최신 AI 모델인 Anthropic의 Claude Mythos Preview와 OpenAI의 GPT-5.5가 일부 취약점을 성공적으로 악용하는 결과를 보여, AI 기반 공격 가능성 및 보안 위험이 점차 증가하고 있음을 시사합니다. 이 연구는 AI의 보안 취약점 악용 능력 평가와 방어 전략 개발에 중요한 기준점을 제공합니다.https://arxiv.org/abs/2605.11086#ai #security #exploitation #benchmark #vulnerability
Related
I tried Siri AI, and so far it actually worksSiri, are you there? Parents want one thing, and one thing only, out of AI:...
I tried Siri AI, and so far it actually worksSiri, are you there? Parents want one thing, and one thing only, out of AI: to add a list of soccer games or "spirit week" theme days f...
OpenAI、IPOを非公開で申請 「リークを予想し自ら発表」 – CNET Japan https://www.yayafa.com/2819047/ #AgenticAi #AI #ArtificialGeneralIntelligen...
OpenAI、IPOを非公開で申請 「リークを予想し自ら発表」 – CNET Japan https://www.yayafa.com/2819047/ #AgenticAi #AI #ArtificialGeneralIntelligence #ArtificialIntelligence #ipo #OpenAI #エージェント型AI #人工知能 #汎用...
“The lawyers on both sides of a federal court case in #Mississippi were caught using artificial intelligence, a situatio...
“The lawyers on both sides of a federal court case in #Mississippi were caught using artificial intelligence, a situation where, effectively, generative #AI tools were used to argu...