Mastodon discussion 2d ago

ExploitGym: Can AI agents turn bugs into exploits?ExploitGym은 AI 에이전트가 보안 취약점을 실제 공격으로 전환할 수 있는 능력을 평가하는 대규모 벤치마크입니다. 89...

ExploitGym: Can AI agents turn bugs into exploits?ExploitGym은 AI 에이전트가 보안 취약점을 실제 공격으로 전환할 수 있는 능력을 평가하는 대규모 벤치마크입니다. 898개의 실제 취약점 사례를 포함하며, Google V8, 리눅스 커널 등 다양한 도메인과 보안 방어 환경을 ...

Mastodon discussion 2d ago

播放清單更懂你心 AI 讀取 13 年數據精準抓出憂鬱症變化一名 Reddit 網友將 13 年的 Spotify 聆聽數據交給 OpenAI 的 Codex 分析,AI […]#流動音樂 #AI #openai #spotifyhttps...

播放清單更懂你心 AI 讀取 13 年數據精準抓出憂鬱症變化一名 Reddit 網友將 13 年的 Spotify 聆聽數據交給 OpenAI 的 Codex 分析,AI […]#流動音樂 #AI #openai #spotifyhttps://unwire.hk/2026/05/16/spotify-ai-depression-skip-rate-code...

Mastodon discussion 2d ago

HWE Bench: A new unbounded Benchmark for LLMs (GPT 5.5 is on top)HWE Bench는 LLM이 설계한 RISC-V CPU 마이크로아키텍처를 FPGA에서 실제 성능으로...

HWE Bench: A new unbounded Benchmark for LLMs (GPT 5.5 is on top)HWE Bench는 LLM이 설계한 RISC-V CPU 마이크로아키텍처를 FPGA에서 실제 성능으로 평가하는 무한 확장 벤치마크입니다. 기존 벤치마크와 달리 상한선이 없어 모델이 더 나은 설계를 찾을수록 점...