大福餅

大福餅

【論文紹介】Gemini: A Family of Highly Capanble Mutimodal Models

arxiv.org

ざっと目を通したので概要と所感を記す.

概要

  • Googleが出したマルチモーダルモデルの「Gemini」に関する論文
  • マルチモーダルモデル,というのはテキスト,画像,音声,動画というように異なる形式データを同時に扱って出力するモデル.
    • 出力例として,物理の問題を小学生が回答した内容が載っている画像と,それに関する質問をテキストで入力 (例:この回答あってる?間違っている?間違っているならどこが間違っていて,正しい回答をくれ).出力では,画像の中身を認識し,テキストに従い,理由+正しい回答付きで間違っている点をテキストで出力している.
  • モデルサイズは大きいものから「Ultra」,「Pro」,「Nano」が存在する
    • 本論文にてベンチマークを用いた評価が行われているが,多くは「Ultra」の結果
    • 現在vertexAIで提供されているのは「Pro」
    • 「Nano」は個人のデバイスで使うことを想定したモデル

      Figure 2 引用
  • ベンチマークは,テキスト,画像,音声,動画に関するもの
    • 例えば,MMLU (大規模マルチ言語理解) という57分野 (医療とか) から問題を解くベンチマークでは,90.04%の結果となり,専門家の89.8% の結果よりも超えた
      • メディアでは個々の部分がよく取り上げられている
      • ただし「Pro」は79.13%である
    • ベンチマークは,Gemini,GTP, PaLM, LLAMAなどの代表的なモデルでそれぞれ比較している
    • 「Ultra」の結果は大体他のモデルよりも優れている.一部のメディアで大体の結果が優れていたと報告されていたが,多分このことを指している
    • 個人的には,GPT-4とUltra ではほとんど差がないか,ちょっとUltraのほうが上という結果が多く見られた.中には,GPT-4の方が良い結果を出すベンチマークもあった
  • 多分この論文で主張したいところは,「一つのマルチモーダルモデルによって,色々精度良く出来るようになったところ」なんだろうと思う
    • あの賛否両論のデモでも見せてたように,画像と音声で何をしているか出力させる,といったように
  • 論文の後半では「責任ある実装」という観点で,AIリスクに関するアプローチ方法についてGeminiを絡めながら説明をしていた
    • 個人的にはこちらの方が興味深い話だった.特にハルシネーションとか.
    • 出力の正しさに関して,instruction tuningすることでどれだけ出来るかという取り組みも見せていた
  • 課題としては,ハルシネーションと因果関係の理解,論理思考などの高次の能力を必要とするタスク処理
    • 複数の形式データを取り扱えるようになったことにより,コンテキストの理解なども出来るようにしていくのだろう

 

所感

  • 若干モデルに関する解説が少ないように思えた.もちろん概略図はあったが.
  • マルチモーダルによって,出来ることも増やししつつ,これまでのタスクの精度を全体的に向上させたという印象
  • ただし,飽くまでも「Ultra」の話であり,現状外部ユーザーは「Pro」しか使えない.「Pro」の精度ももちろん良いのだが,例えば,数学のベンチマークではPro: 32.6%だが,GPT-4:52.9%, Ultra:53.2%となっている.
    • そのため,メディアの印象のまま「Pro」を使うと,思ったより精度が低いと思うかもしれない
    • ここらへんは,デモに関する一連の騒動と通ずるところがある
  • モデル自体の性能は凄いし,マルチモーダルなモデルの需要は高まる一方なので,今後の発展に期待できるモデルと言えそう
  • また,終盤の方にはモデル実装に関して,リスク軽減に対するアプローチを説明していた.
  • 扱うデータがより多く複雑になることで,リスクが大きくなると考えられる.AIを用いる際に,どのような流れで取り組むべきなのか,考える材料として本論文を見ることもアリだと考えた.