SENetで「self-attention」までつなげるのは、さすがに(筆者の)話の盛り過ぎか。
以下の論文。
Hu, J., Shen, L., & Sun, G. (2018). Squeeze-and-excitation networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7132-7141).
attentionや、self-attentionについてどのような記載になっているか。
論文抜粋1(attention) ※ここは、SENetに関する記載ではない。
視覚タスクのモデルとして広く使われているニューラルネットワークの新しい設計の開発は、現在、この探索の重要なフロンティアとなっています。最近の研究では、特徴間の空間的相関を捉えるのに役立つ学習メカニズムをネットワークに統合することで、CNNが生成する表現が強化されることが示されている。このようなアプローチの1つは、Inceptionファミリーのアーキテクチャ[5]、[6]によって普及しており、マルチスケール処理をネットワークモジュールに組み込んで性能を向上させるものである。さらに、空間依存性をより適切にモデル化し [7]、[8] 、空間的な注意をネットワークの構造に組み込む [9] ことも試みられている。
論文抜粋2(attention)
注意とゲーティング機構 注意は利用可能な計算資源を信号の最も有益な構成要素に偏らせる手段と解釈できる [46], [47], [48], [49], [50], [51]。注意メカニズムは、シーケンス学習[52]、[53]、画像中の位置特定と理解[9]、[54]、画像キャプション[55]、[56]、読唇術[57]など多くのタスクでその有用性を実証してきた。これらのアプリケーションでは、モダリティ間の適応のためのより高いレベルの抽象化を表す1つ以上のレイヤに続く演算子として組み込むことができる。空間的注意とチャネル的注意の併用に関する興味深い研究がある [58], [59]。Wangら[58]は砂時計モジュール[8]に基づく強力なトランク&マスク注意メカニズムを導入し、深い残差ネットワークの中間ステージの間に挿入している。対照的に、我々の提案するSEブロックは、計算効率の良い方法でチャネル毎の関係をモデル化することにより、ネットワークの表現力を高めることに焦点を当てた軽量のゲート機構で構成されている。
SENetは、上記再掲で、以下のように説明されている。
対照的に、我々の提案するSEブロックは、計算効率の良い方法でチャネル毎の関係をモデル化することにより、ネットワークの表現力を高めることに焦点を当てた軽量のゲート機構で構成されている。
論文抜粋3(self-attention)
ディスカッション 励起演算子は、入力に特化した記述子zをチャンネル重みの集合にマッピングする。この点、SEブロックは本質的に入力に条件付けられたダイナミクスを導入しており、その関係は畳み込みフィルタが反応する局所受容野に限定されないチャネルに対する自己注意関数と見なすことができる。
ここでの自己注意(self-attention)は、transformerとかでのself-attention等とは、かなり違う。。。
高々、注意?
まとめ
コメントなどあれば、お願いします。