論文『Attention Is All You Need』のScaled Dot-Product Attentionの説明部分
引用
The two most commonly used attention functions are additive attention [2], and dot-product (multiplicative) attention. Dot-product attention is identical to our algorithm, except for the scaling factor of √ 1 dk . Additive attention computes the compatibility function using a feed-forward network with a single hidden layer. While the two are similar in theoretical complexity, dot-product attention is much faster and more space-efficient in practice, since it can be implemented using highly optimized matrix multiplication code.
最もよく使われる2つの注意関数は、加法注意[2]とドット積(乗法)注意である。ドット積注意は、√ 1 dkのスケーリング係数を除けば、我々のアルゴリズムと同じである。加法的注意は、1つの隠れ層を持つフィード・フォワード・ネットワークを用いて互換性関数を計算する。この2つは理論的な複雑さでは似ていますが、高度に最適化された行列乗算コードを用いて実装することができるため、実際にはドット積注意の方がはるかに高速でスペース効率に優れています。
このあたりが、難しい。。。。
上記で引用している、以下あたりが難しい。
この2つは理論的な複雑さでは似ていますが、高度に最適化された行列乗算コードを用いて実装することができるため、実際にはドット積注意の方がはるかに高速でスペース効率に優れています。
自分の記事で参考になるもの
コメント
なんなりコメントなり、アドバイスがあれば、お願いします。