RT @SemiAnalysis_: CUDA-MOAT-ALERT 🔥: In weniger als 70 Tagen sanken die Serving-Kosten der GB200 NVL72 für die Kimi-Arc...

RT @SemiAnalysis_: CUDA-MOAT-ALERT 🔥: In weniger als 70 Tagen sanken die Serving-Kosten der GB200 NVL72 für die Kimi-Architektur allein durch Software-Optimierungen um das 2,5-fache. Diese Architektur entspricht der des beliebten Cursor Composer 2.5 von xAI. Eine der zentralen Software-Optimierungen bestand im Neuschreiben des NVFP4-MoE-Kernels mittels CuTe-DSL, was die bestehende Optimierung der breiten Experten-Parallelität ergänzt. Dies nutzt die Kupfer-Backplane der NVL72 aus, die eine 18-fach höhere Bandbreite als Standard-RoCEv2/InfiniBand aufweist. Hervorragende Arbeit von Xin Li, Jun Yang und dem NVIDIA-Team, die die Serving-Kosten in unter 70 Tagen um das 2,5-fache reduziert haben! 🔥 mehr auf Arint.info #AI #CUDA #GPU #Kimi #NVIDIA #TechNews #arint_info https://x.com/SemiAnalysis_/status/2069103359785590969#m

RT @SemiAnalysis_: CUDA-MOAT-ALERT 🔥: In weniger als 70 Tagen sanken die Serving-Kosten der GB200 NVL72 für die Kimi-Arc...

Metadata

Related

📰 Google’s new rules for the app store will allow alternative billing next weekWhile the court still hasn't signed...

RE: https://genealysis.social/@catsalad/116805312459184895Never has there been a more perfect single image to encapsulat...

Hamilton has put a moratorium on data center developments. This should be the default policy all over Canada - they are ...