【論文紹介】Attention is All You Need

概要
感想

arxiv.org

概要

Google が2017年ごろに出したTransformer の論文
RNN、encoder-decoderモデルにAttentionと呼ばれる機構を追加したことによって、計算量を減らしながら精度を保つことに成功した
Attentionというのは「注意機構」と呼ばれ、入力のある部分を注意を向けさせることで、計算量を抑えつつ、単語の依存関係も捉えることができた
- これまでは、計算量を抑えようとすると単語同士の関係の情報をを保つことができなかった
Multi-head Attention：Attentionを複数の「ヘッド」に分割して、各ヘッドが独立でそれぞれ入力の異なる部分を同時に焦点を与えることが可能。
Self-Attention：入力データ同士の類似度・対応関係を取得するもの。
- 入力データ間で処理するため、長距離依存関係の学習を有効に出来る
- 並列処理に適しており、計算効率が良い
検証結果
- EN-DE (英語-ドイツ) 翻訳 BLUEスコア 28.4
- EN-FE (英語-フランス) 翻訳　BLUEスコア 41.8
  - 以前のモデルよりも高く出る結果に
- モデル検証
  - 注意ヘッドの数は多くても少なくても駄目
  - 注意キーのサイズを減らすと低下
  - モデルサイズが大きいと良い。ドロップアウトで過学習を防ぐ
  - 位置符号化を学習された位置埋込にすると、基本モデルと同様の精度が得られる
- 句構造解析
  - タスク特化のチューニングなしでも良い精度
  - RNNに比べて、40k文の学習でも良い精度が得られる

感想

今更ながらディープラーニングの王道的論文を読んだ
- この分野の論文は、全然読めていないので内容の理解がイマイチ
- ただし、AttentionによってRNN、LSTMの長期依存関係を保存したたまま計算量を大幅に抑える、かつ精度も高めに出ることがわかった
論文ではテキストだけだが、当然他の領域にも活かせそう
- というか既に活かしているのだが
考え方自体は昔からあったが、GoogleがTransformerという形で実装したのが流行るきっかけ
- そういえば、この論文発表後の数年後ぐらいに、よく外の研究室の発表で「Attention」という言葉を聞いたものだった
- ディープラーニング自体もそうだが、優れたアイデアが実装されると流行るものだと思った
他の論文も読んでみたい
- 例えばViTとか
- Attentionが実装されている有名なモデルとか
もう少し理解を深めたい
- 構造については、まだ理解が追いついていないなあと実感

大福餅

大福餅

【論文紹介】Attention is All You Need

概要

感想