大福餅

大福餅

人工言語による事前学習を用いた言語間転移可能な知識の分析

www.jstage.jst.go.jp

 

昨日、ベッドの上で寝ながら読んでいたが面白かった。

 

概要

  • 人工言語を用いた事前学習をTransformerのエンコーダに学習させ、そのエンコーダを自然言語の言語モデリングに転移したときの性能を測定させた論文。
  • 先行研究の結果から、NNは言語タスクを解くための特徴に、言語非依存なものがあることが示唆されている。
    • 複数の言語のテキストで学習したマルチリンガル事前学習モデルは、様々な言語のタスクで高い性能が出せることが分かっている。
    • また英語のデータのみを事前学習させたTransformerエンコーダは、他の言語にも転用可能だと分かっている。
    • 更には、楽譜やプログラミングコードなどの非依存言語データで訓練させたLSTM言語モデルが、自然言語の言語モデリングのタスクに転用できることも示されている。
  • つまり、言語間に共通する特徴をNNが学習によって得ており、その結果、学習した言語以外の言語タスクでも精度がある程度保たれているということ。
  • 本研究では、人工言語を用いて、その特徴が何なのかを調べている。
  • 結果として、トークンの頻度文法、トークンの種類す、系列のランダム性などの要素そのものは、転移可能性に余り影響を与えず系列中の位置を考慮した統計的依存性が重要であると示された。
    • 文章の文脈などが、言語間を超えた共通の特徴に当てはまると示唆された。
  • 先行研究の結果も、系列の位置を考慮した統計的依存性や、複数の言語の意味空間の構造の共通性が関係していると考察された。

 

所感

  • 先行研究の結果が言語間で共通する特徴によって得られている、ということについて、人工言語を用いてその特徴が何なのかを示唆したことが新規性と言える。
  • 人工言語を用意するやり方が、実験心理学の刺激を作る感じに似ていて、そのデータセットを作る意義を感じられて、面白いなと思った。
  • 人間の言語学習にも、ある言語を知っていると別の言語も覚えやすいみたいな話をよく聞く。
    • 例えば、英語とドイツ語は語順が似ているので覚えやすいとか。
  • 楽譜・プログラミングコードについては、個人的には直感的にはピンとこない。
    • プログラミングコードは英語だから、という点で未だ理解できなくはないが……
    • 位置というのが、大事な要素の一つなのだろうか。
    • 楽譜は音符の並び (位置) がパターンを形成してはいる。
  • そもそも、言語の転移学習というのをこの論文を読むまでは知らなかったので、この分野に興味が湧いた。