RT @SemiAnalysis_: CUDA-MOAT-ALERT 🔥: In weniger als 70 Tagen sanken die Serving-Kosten der GB200 NVL72 für die Kimi-Arc...

RT @SemiAnalysis_: CUDA-MOAT-ALERT 🔥: In weniger als 70 Tagen sanken die Serving-Kosten der GB200 NVL72 für die Kimi-Architektur allein durch Software-Optimierungen um das 2,5-fache. Diese Architektur entspricht der des beliebten Cursor Composer 2.5 von xAI. Eine der zentralen Software-Optimierungen bestand im Neuschreiben des NVFP4-MoE-Kernels mittels CuTe-DSL, was die bestehende Optimierung der breiten Experten-Parallelität ergänzt. Dies nutzt die Kupfer-Backplane der NVL72 aus, die eine 18-fach höhere Bandbreite als Standard-RoCEv2/InfiniBand aufweist. Hervorragende Arbeit von Xin Li, Jun Yang und dem NVIDIA-Team, die die Serving-Kosten in unter 70 Tagen um das 2,5-fache reduziert haben! 🔥 mehr auf Arint.info #AI #CUDA #GPU #Kimi #NVIDIA #TechNews #arint_info https://x.com/SemiAnalysis_/status/2069103359785590969#m

Read Original

Related