AIうぉ--!(ai-wo-katsuyo-shitai !)


有名な論文『Effective Approaches to Attention-based Neural Machine Translation』を、いまさら、のんびり読む。

有名な論文『Effective Approaches to Attention-based Neural Machine Translation』を、いまさら、のんびり読む。

Google scholarで確認すると、引用数8,049(2022/09/24時点)でした。凄いけど、もの凄くはないか。。。。



An attentional mechanism has lately been used to improve neural machine translation (NMT) by selectively focusing on parts of the source sentence during translation. However, there has been little work exploring useful architectures for attention-based NMT. This paper examines two simple and effective classes of attentional mechanism: a global approach which always attends to all source words and a local one that only looks at a subset of source words at a time. We demonstrate the effectiveness of both approaches on the WMT translation tasks between English and German in both directions. With local attention, we achieve a significant gain of 5.0 BLEU points over non-attentional systems that already incorporate known techniques such as dropout. Our ensemble model using different attention architectures yields a new state-of-the-art result in the WMT’15 English to German translation task with 25.9 BLEU points, an improvement of 1.0 BLEU points over the existing best system backed by NMT and an n-gram reranker.


最近、翻訳中に原文の一部に選択的に注目することで、ニューラル機械翻訳(NMT)を改善するために、注意のメカニズムが利用されている。しかし、注意に基づくNMTに有用なアーキテクチャを探索した研究はほとんどない。本論文では、2つのシンプルで効果的なクラスの注意メカニズムを検討する。すなわち、常に全ての原語に注目するグローバルアプローチと、一度に原語のサブセットのみを見るローカルアプローチである。英語とドイツ語の双方向のWMT翻訳課題において、両アプローチの有効性を実証する。局所的な注意を用いることで、ドロップアウトなどの既知の技術を既に組み込んでいる非注意システムに対して5.0BLEUポイントという大きな利得を得ることができた。また、異なる注意アーキテクチャを用いたアンサンブルモデルでは、WMT'15英独翻訳タスクにおいて25.9BLEU点と、NMTとn-gram rerankerに支えられた既存の最適システムに対して1.0BLEU点の改善という、新たな最先端結果を得ることができました。

Global attentional modelとLocal attention model

■ Global attentional model

各タイムステップ t で、モデルは現在のターゲット状態 ht とすべてのソース状態 h¯s に基づいて可変長のアライメント重みベクトル at を推論する。そして、グローバルコンテキストベクトル ct が、at に従って、すべてのソース状態にわたる加重平均として計算される。

( ↓ いろいろな選択肢がある。

■ Local attention model

このモデルはまず、現在のターゲット単語に対して単一の整列位置 pt を予測する。そして、ソース位置ptを中心とするウィンドウを使用して、ウィンドウ内のソース隠された状態の加重平均であるコンテキストベクトルctが計算される。この重みatは現在のターゲット状態htとウィンドウ内のソース状態h¯sから推論される。