AIうぉ－－！(ai-wo-katsuyo-shitai !)

AIを上手く使ってみせたい！！自分なりに。

Vision Transformer (ViT)は、何故、self-attentionというか、画像をかける(x)のか？

Vision Transformer (ViT)は、何故、self-attentionというか、画像をかける(x)のか？

自然言語で単語のembeddingをかけるのは、ある程度、理解できるとして、
画像を「かけて」、何かいいことがあるのか？

⇒　【自分なりの回答】他にやれることもないし。。。、が答えかと思う。

参考

f:id:fanta_orange_grape:20220211105503p:plain

上の図は、下記からの引用。相関、掛け算で一致度の高い部分にピークが出ている例。画像のマッチングではよく使われる。

jp.mathworks.com

コメントなどあればお願いします。