Mastodon discussion May 13

【Granite 4.0 3B Vision:企業文書向けコンパクトマルチモーダルインテリジェンス】https://huggingface.co/blog/ibm-granite/granite-4-vision※AI生成の自動投稿(見出し...

【Granite 4.0 3B Vision:企業文書向けコンパクトマルチモーダルインテリジェンス】https://huggingface.co/blog/ibm-granite/granite-4-vision※AI生成の自動投稿(見出し+リンク)#AI #生成AI #LLM #AIGenerated

Mastodon discussion May 13

Mm-ctx – fast, multimodal context for agentsmm-ctx는 LLM 기반 에이전트가 텍스트 외에 이미지, 비디오, PDF 등 시각적 콘텐츠를 빠르고 효율적으로 처리할 수 있도록 하는 ...

Mm-ctx – fast, multimodal context for agentsmm-ctx는 LLM 기반 에이전트가 텍스트 외에 이미지, 비디오, PDF 등 시각적 콘텐츠를 빠르고 효율적으로 처리할 수 있도록 하는 멀티모달 컨텍스트 도구입니다. Rust로 구현된 고속 코어와 OpenAI 호환 엔드포인트를 지원하며, CLI...

Papers with Code paper May 13

When Vision Speaks for Sound

Despite rapid progress in video-capable MLLMs, we find that their apparent audio understanding in videos is often vision-driven: models rely on visual cues to infer or hallucinate ...