概要
- Google が2017年ごろに出したTransformer の論文
- RNN、encoder-decoderモデル にAttentionと呼ばれる機構を追加したことによって、計算量を減らしながら精度を保つことに成功した
- Attentionというのは「注意機構」と呼ばれ、入力のある部分を注意を向けさせることで、計算量を抑えつつ、単語の依存関係も捉えることができた
- これまでは、計算量を抑えようとすると単語同士の関係の情報をを保つことができなかった
- Multi-head Attention:Attentionを複数の「ヘッド」に分割して、各ヘッドが独立でそれぞれ入力の異なる部分を同時に焦点を与えることが可能。
- Self-Attention:入力データ同士の類似度・対応関係を取得するもの。
- 入力データ間で処理するため、長距離依存関係の学習を有効に出来る
- 並列処理に適しており、計算効率が良い
- 検証結果
感想
- 今更ながらディープラーニングの王道的論文を読んだ
- この分野の論文は、全然読めていないので内容の理解がイマイチ
- ただし、AttentionによってRNN、LSTMの長期依存関係を保存したたまま計算量を大幅に抑える、かつ精度も高めに出ることがわかった
- 論文ではテキストだけだが、当然他の領域にも活かせそう
- というか既に活かしているのだが
- 考え方自体は昔からあったが、GoogleがTransformerという形で実装したのが流行るきっかけ
- 他の論文も読んでみたい
- 例えばViTとか
- Attentionが実装されている有名なモデルとか
- もう少し理解を深めたい
- 構造については、まだ理解が追いついていないなあと実感