DiffusionGemma génère du texte comme un modèle de diffusion image : en partant du bruit, pas token par token. Sur un H10...

DiffusionGemma génère du texte comme un modèle de diffusion image : en partant du bruit, pas token par token. Sur un H100, ça atteint 1 100 tokens par seconde, environ 4x plus rapide que les modèles autorégressifs comparables.La qualité reste inférieure pour l'instant, mais l'approche est prometteuse pour les tâches non linéaires comme le remplissage de code.Combien de précision vous accepteriez de perdre pour 4x la vitesse ?#LLM #OpenWeights

Read Original

Related