AIうぉ－－！(ai-wo-katsuyo-shitai !)

AIを上手く使ってみせたい！！自分なりに。

論文『Scalable MatMul-free Language Modeling』を読む

概要

ChatGPT訳：

行列積 (MatMul) は通常、大規模言語モデル (LLM) の全体的な計算コストの大部分を占めます。このコストは、LLM がより大きな埋め込み次元や文脈長にスケールするにつれて増加する一方です。本研究では、行列積操作を完全に排除しつつ、数十億パラメータ規模で強力な性能を維持できることを示します。実験結果は、我々の提案するMatMul不要のモデルが、推論時に大幅に多くのメモリを必要とする最先端のTransformerと同等の性能を達成することを示しています。このモデルはスケーリング法則を調査し、モデルサイズが増加するにつれて、我々のMatMul不要のモデルとフル精度のTransformerの性能差が縮小することを発見しました。また、GPU効率の高い実装を提供し、トレーニング中のメモリ使用量を最適化されていないベースラインと比較して最大61％削減します。推論時に最適化されたカーネルを利用することで、モデルのメモリ消費を最適化されていないモデルと比較して10倍以上削減できます。アーキテクチャの効率を適切に定量化するために、GPUが対応できる以上の軽量操作を活用するFPGA上にカスタムハードウェアソリューションを構築しました。これにより、13Wで人間が読み取れるスループットを超える性能で数十億パラメータ規模のモデルを処理し、LLMを脳のような効率に近づけました。この研究は、LLMが効果的に動作するためにどこまで削減できるかを示すだけでなく、次世代の軽量LLMを処理するために将来のアクセラレータが最適化すべき操作の種類を指し示しています。コード実装はhttps://github.com/ridgerchu/matmulfreellmにて公開されています。

論文から図の引用

コメント

内容、、、、全然、わかりません。
ただし、元のTransformer系で何かが必須という感じはしてないので、、、、別の手段でできると言われても、あまり、驚きはない、ですね。

自分の記事のリンクを一応、、、、

ai-de-seikei.hatenablog.com

ai-de-seikei.hatenablog.com