金のニワトリ (@gosrum)Mac Studio(M2 Ultra)에서 llama-bench로 Mistral-Medium-3.5-128B의 추론 속도를 측정한 결과를 공유했다. prefill은 약 57.5 tps, decode는 약 6.5 tps였고, 128k 컨텍스트는 가능했지만 200k에서는 OOM이 발생했다고 밝혔다. 대형 모델의 로컬 실행 성능 한계를 보여주는 테스트다.https://x.com/gosrum/status/2050706398070354085#mistral #llamabench #inference #llm #benchmark
Related
「Meta AI」と声で会話できるように、新AIモデル「Muse Spark」搭載(ケータイ Watch)|dメニューニュース(NTTドコモ) https://www.yayafa.com/2802410/ #「MetaAI」と声で会話でき...
「Meta AI」と声で会話できるように、新AIモデル「Muse Spark」搭載(ケータイ Watch)|dメニューニュース(NTTドコモ) https://www.yayafa.com/2802410/ #「MetaAI」と声で会話できるように、新AIモデル「MuseSpark」搭載 #AgenticAi #AI #ArtificialGeneralIn...
#Objectionai verspricht ein KI-Tribunal für Wahrheit im #Journalismus.Doch was passiert, wenn ein privates System kritis...
#Objectionai verspricht ein KI-Tribunal für Wahrheit im #Journalismus.Doch was passiert, wenn ein privates System kritische Artikel automatisch prüft, öffentlich als „under investi...
Ik vraag me dan af, als je er dan voor kiest, waarom niet een Europese #LLM provider als #Lumo, #LeChat (beide #Mistral)...
Ik vraag me dan af, als je er dan voor kiest, waarom niet een Europese #LLM provider als #Lumo, #LeChat (beide #Mistral)?——#Malta gaat vanaf deze maand alle inwoners een AI-cursus ...