RT @stevibe: Parameter-Scaling ist gerade bei mir abgestürzt. Ich habe 90 Matheaufgaben als Bilder an 10 lokale Vision-M...

RT @stevibe: Parameter-Scaling ist gerade bei mir abgestürzt. Ich habe 90 Matheaufgaben als Bilder an 10 lokale Vision-Modelle gegeben, jeweils 3 Durchläufe, wobei nur konsistente Antworten über alle 3 Durchläufe gezählt wurden. Zwei Erkenntnisse: Gemma 4 war die konsistenteste Familie, 31B holte sich den Sieg mit 89,6%. Doch Qwen 3.5 4B lag nur zwei Antworten dahinter. Ein 4B-Modell. Auf Platz 2 von 10. Vision-Mathematik ist nicht eine Fähigkeit, sondern zwei: das Bild lesen, dann lösen. Die eigentliche Lektion für alle, die lokal arbeiten: klein ≠ schwach. Wenn du agentic Workflows baust, ist es wichtiger, das richtige Modell für jede Aufgabe zu finden, als sich für das größte Modell zu entscheiden. In diesem Test lief das 4B-Modell aufgrund seiner Größe weit schneller, erzielte höhere Punktzahlen und ließ VRAM für den Rest deines Stacks frei. Vollständige Ergebnisse: 🥇 Gemma 4 31B — 242/270 (89,6%) 🥈 Qwen 3.5 4B — 240/270 (88,9%) 🥉 Gemma 4 E4B — 222/270 (82,2%) 🥉 Qwen 3.6 27B — 222/...

RT @stevibe: Parameter-Scaling ist gerade bei mir abgestürzt. Ich habe 90 Matheaufgaben als Bilder an 10 lokale Vision-M...

Metadata

Related

Just explored mercury-agent-skills from Cosmicstack-labs - a library of reusable agent skills for AI agents. Supports Me...

— "It’s hard to imagine the enthusiasm it generated"Un sticker parmi une trentaine disponibles au téléchargement sur ces...

The biggest gift Anthropic could’ve gotten for their IPO. #AI #claude https://dominickm.com/anthropics-new-cmo-the-feds/