Triton比6倍超の性能を30行で:MetaのHelionがAIカーネルの標準へ カーネル最適化は長年、GPUプログラミングの深い知識を持つ一握りの専門家が支配してきた領域だ。NVIDIAのCUDAでAttentionカーネルを書けば数千行に及び、2019年にOpenAIが発表したTritonで約120行まで圧縮されても、手動チューニングの壁はほとんど変わらなかった。Metaが開発したPython […] https://xenospectrum.com/helion-pytorch-foundation-kernel-dsl-autotuning/
Triton比6倍超の性能を30行で:MetaのHelionがAIカーネルの標準へ カーネル最適化は長年、GPUプログラミングの深い知識を持つ一握りの専門家が支配してきた領域だ。NVIDIAのCUDAでAttentionカーネルを書けば数千...