AIうぉ--!(ai-wo-katsuyo-shitai !)

AIを上手く使ってみせたい!!自分なりに。

論文『Attention Is All You Need』のScaled Dot-Product Attentionについて

論文『Attention Is All You Need』のScaled Dot-Product Attentionの説明部分

引用

The two most commonly used attention functions are additive attention [2], and dot-product (multiplicative) attention. Dot-product attention is identical to our algorithm, except for the scaling factor of √ 1 dk . Additive attention computes the compatibility function using a feed-forward network with a single hidden layer. While the two are similar in theoretical complexity, dot-product attention is much faster and more space-efficient in practice, since it can be implemented using highly optimized matrix multiplication code.

最もよく使われる2つの注意関数は、加法注意[2]とドット積(乗法)注意である。ドット積注意は、√ 1 dkのスケーリング係数を除けば、我々のアルゴリズムと同じである。加法的注意は、1つの隠れ層を持つフィード・フォワード・ネットワークを用いて互換性関数を計算する。この2つは理論的な複雑さでは似ていますが、高度に最適化された行列乗算コードを用いて実装することができるため、実際にはドット積注意の方がはるかに高速でスペース効率に優れています。

このあたりが、難しい。。。。

上記で引用している、以下あたりが難しい。

この2つは理論的な複雑さでは似ていますが、高度に最適化された行列乗算コードを用いて実装することができるため、実際にはドット積注意の方がはるかに高速でスペース効率に優れています。

自分の記事で参考になるもの

ai-de-seikei.hatenablog.com

コメント

なんなりコメントなり、アドバイスがあれば、お願いします。