【論文紹介】Gemini: A Family of Highly Capanble Mutimodal Models

概要
所感

arxiv.org

ざっと目を通したので概要と所感を記す．

概要

Googleが出したマルチモーダルモデルの「Gemini」に関する論文
マルチモーダルモデル，というのはテキスト，画像，音声，動画というように異なる形式データを同時に扱って出力するモデル．
- 出力例として，物理の問題を小学生が回答した内容が載っている画像と，それに関する質問をテキストで入力 (例：この回答あってる？間違っている？間違っているならどこが間違っていて，正しい回答をくれ）．出力では，画像の中身を認識し，テキストに従い，理由＋正しい回答付きで間違っている点をテキストで出力している．
モデルサイズは大きいものから「Ultra」，「Pro」，「Nano」が存在する
- 本論文にてベンチマークを用いた評価が行われているが，多くは「Ultra」の結果
- 現在vertexAIで提供されているのは「Pro」
- 「Nano」は個人のデバイスで使うことを想定したモデル
  
  Figure 2 引用
ベンチマークは，テキスト，画像，音声，動画に関するもの
- 例えば，MMLU (大規模マルチ言語理解) という５７分野 (医療とか) から問題を解くベンチマークでは，90.04%の結果となり，専門家の89.8% の結果よりも超えた
  - メディアでは個々の部分がよく取り上げられている
  - ただし「Pro」は79.13%である
- ベンチマークは，Gemini，GTP, PaLM, LLAMAなどの代表的なモデルでそれぞれ比較している
- 「Ultra」の結果は大体他のモデルよりも優れている．一部のメディアで大体の結果が優れていたと報告されていたが，多分このことを指している
- 個人的には，GPT-4とUltra ではほとんど差がないか，ちょっとUltraのほうが上という結果が多く見られた．中には，GPT-4の方が良い結果を出すベンチマークもあった
多分この論文で主張したいところは，「一つのマルチモーダルモデルによって，色々精度良く出来るようになったところ」なんだろうと思う
- あの賛否両論のデモでも見せてたように，画像と音声で何をしているか出力させる，といったように
論文の後半では「責任ある実装」という観点で，AIリスクに関するアプローチ方法についてGeminiを絡めながら説明をしていた
- 個人的にはこちらの方が興味深い話だった．特にハルシネーションとか．
- 出力の正しさに関して，instruction tuningすることでどれだけ出来るかという取り組みも見せていた
課題としては，ハルシネーションと因果関係の理解，論理思考などの高次の能力を必要とするタスク処理
- 複数の形式データを取り扱えるようになったことにより，コンテキストの理解なども出来るようにしていくのだろう

所感

若干モデルに関する解説が少ないように思えた．もちろん概略図はあったが．
マルチモーダルによって，出来ることも増やししつつ，これまでのタスクの精度を全体的に向上させたという印象
ただし，飽くまでも「Ultra」の話であり，現状外部ユーザーは「Pro」しか使えない．「Pro」の精度ももちろん良いのだが，例えば，数学のベンチマークではPro: 32.6%だが，GPT-4：52.9%, Ultra：53.2%となっている．
- そのため，メディアの印象のまま「Pro」を使うと，思ったより精度が低いと思うかもしれない
- ここらへんは，デモに関する一連の騒動と通ずるところがある
モデル自体の性能は凄いし，マルチモーダルなモデルの需要は高まる一方なので，今後の発展に期待できるモデルと言えそう
また，終盤の方にはモデル実装に関して，リスク軽減に対するアプローチを説明していた．
扱うデータがより多く複雑になることで，リスクが大きくなると考えられる．AIを用いる際に，どのような流れで取り組むべきなのか，考える材料として本論文を見ることもアリだと考えた．

大福餅

大福餅

【論文紹介】Gemini: A Family of Highly Capanble Mutimodal Models

概要

所感