2022-02-11 Vision Transformer (ViT)は、何故、self-attentionというか、画像をかける(x)のか? Vision Transformer (ViT)は、何故、self-attentionというか、画像をかける(x)のか? 自然言語で単語のembeddingをかけるのは、ある程度、理解できるとして、 画像を「かけて」、何かいいことがあるのか? ⇒ 【自分なりの回答】他にやれることもないし。。。、が答えかと思う。 参考 上の図は、下記からの引用。 相関、掛け算で一致度の高い部分にピークが出ている例。画像のマッチングではよく使われる。 jp.mathworks.com コメントなどあればお願いします。