AIうぉ--!(ai-wo-katsuyo-shitai !)

AIを上手く使ってみせたい!!自分なりに。

Vision Transformer (ViT)は、何故、self-attentionというか、画像をかける(x)のか?

Vision Transformer (ViT)は、何故、self-attentionというか、画像をかける(x)のか?

自然言語で単語のembeddingをかけるのは、ある程度、理解できるとして、
画像を「かけて」、何かいいことがあるのか?

⇒ 【自分なりの回答】他にやれることもないし。。。、が答えかと思う。

参考

f:id:fanta_orange_grape:20220211105503p:plain

上の図は、下記からの引用。 相関、掛け算で一致度の高い部分にピークが出ている例。画像のマッチングではよく使われる。

jp.mathworks.com

コメントなどあればお願いします。