最近では、深層学習を使った人工知能(AI)のブレークスルーについてのニュースを頻繁に見かけるようになった。しかし、Alphabet傘下のDeepMindが発表した最新の成果のすごさは分かりにくい。この研究の成果を一言で要約するとすれば、「多くのタスクでそれなり仕事ができるAI」を作ったということになるだろう。
「Gato」と名付けられた最近発表されたDeepMindのプログラムは、いわゆるマルチモーダルなAIで、テレビゲームをプレイしたり、チャットをしたり、文章を書いたり、写真にキャプションを付けたり、ブロックを積み上げるロボットアームを制御したりすることができる。Gatoは、1つのニューラルネットワークで複数の種類のデータを扱い、複数の種類のタスクを実行する能力を持っている。
DeepMindが開発したニューラルネットワーク「Gato」は、ロボットアームの操作から、Atari 2600のゲームを遊ぶこと、画像キャプションの生成まで、さまざまな仕事を行うことができる。
提供:DeepMind
プレプリントの論文を発表するサーバー「Arxiv」に投稿された「A Generalist Agent」と題する論文で、著者のScott Reed氏らは、「Gatoは、1セットの重みで、対話を行ったり、画像にキャプションを付けたり、本物のロボットアームでブロックを積み上げたり、Atariのテレビゲームを人間よりも上手にプレイしたり、シミュレーションされた3D環境でナビゲーションを行ったり、命令に従ったりすることができる」と述べている。
DeepMindの共同設立者であるDemis Hassabis氏は、ツイートで「私たちが作った中で最も汎用的なエージェントだ!素晴らしい成果だ!」とチームの成果を絶賛した。
残念な点があるとすれば、いくつかのタスクはそれほど得意ではないことだろう。
Gatoは、協働ロボット「Sawyer」のアームを制御してブロックを積み上げることにかけては、専用の機械学習プログラムよりも優れている。その一方で、生成した画像のキャプションは、かなり低品質なものも多い。人間相手の標準的なチャットでの対話能力も、同様に大したことはなく、矛盾した意味不明の発言をすることもある。
また、「Atari 2600」のテレビゲームをプレイする機能は、「Archade Learning Environment」と呼ばれるベンチマークプラットフォームで競うために設計された、専用の機械学習プログラムのほとんどに劣っている。
DeepMindが、非常に得意な作業もあるが、大して上手ではない作業もたくさん行えるプログラムを作ったのはなぜだろうか。論文の著者によれば、先例があり、期待が持てるからだ。
AIの分野の先例では、より汎用性が高いプログラムを作ることが最先端の取り組みになりつつある一方で、今後は利用できるコンピューティングパワーが増大するため、今ある短所は補えるようになると期待されている。
AIの分野では、汎用性が高い方が有利になる場合がある。この論文では、AI学者であるRichard Sutton氏の「歴史的に、大規模な計算能力を利用できる汎用的なモデルは、最終的に特定の分野に特化したアプローチをも上回る傾向がある」という言葉を引用している。
Sutton氏は2019年、自身のブログで「70年間のAI研究から読み取れる最大の教訓は、大規模な計算能力を利用できる汎用的な手法は最終的に最も効果的であり、しかもその差は大きいということだ」と述べていた。
Reed氏らは、この命題を「この論文では、多くのタスクを行うことができる汎用的な能力を持つエージェントをトレーニングすることは可能であるかどうか、またその汎用エージェントが少量の追加データでさらに多くのタスクを行えるように適応させることができるかを検証する」と表現し直している。
実際、このモデルは非常に汎用性が高い。Gatoは、アテンションベースのモデルの主流になっている「Transformer」の一種だ。Transformerは、「GPT-3」を始めとする多くのAIモデルのベースになっている。
Reed氏らは、Gatoのトレーニング作業に関する説明で次のように述べている。
Gatoのトレーニング段階では、異なるタスクやモダリティのデータが、フラットなトークンのシーケンスとして並べられ、バッチ化され、大規模な言語モデルに似たTransformerのニューラルネットワークで処理される。Gatoが予測するのがアクションとテキストターゲットだけになるように、損失はマスクされている。
これは要するに、Gatoでは、チャットの中に出てくる単語や、ブロックを積み上げる際の運動ベクトルなどのトークンが、区別されずに同じように扱われているということだ。
Gatoのトレーニングのシナリオ
提供:Reed et al. 2022
Reed氏らの仮説では、ある推論が前提になっている。具体的には、コンピューティングパワーが大きくなるほど性能は向上するということだ。今のGatoは、ブロックを積み上げるSawyerのロボットアームの応答速度によって制約を受けている。Gatoのネットワークのパラメーター数は11億8000万で、GPT-3のような極めて大規模なAIモデルと比較すると圧倒的に少ない。これは、深層学習モデルがあまり大きくなると、推論の実行に時間がかかるようになり、実際のロボットが置かれている非決定論的な環境では、遅延による失敗が発生する可能性が出てくるためだ。
しかしReed氏らは、AIのハードウェアの処理速度が上がれば、その限界を引き上げることができると予想している。
論文では、「本研究では、モデルの規模から導き出される動作点が、実際のロボットをリアルタイムで制御可能な水準に止まるようなモデル規模でトレーニングを行うことにした。現在のGatoの場合、パラメーター数が約12億の規模がその水準にあたる」と述べている。「当然ながら、今後ハードウェアやモデルのアーキテクチャが改善されれば、同じ動作点でも利用可能なモデルの規模は大きくなり、スケーリング則の曲線に沿って、ジェネラリストモデルの規模を拡大することができるだろう」
つまりGatoは、機械学習開発で最も重要なのは今後もコンピューティング能力の拡大であることを証明するモデルだと言える。これは、コンピューティング能力が強力になるほど、汎用モデルの規模を大きくできるためだ。要するに、大きいことはいいことなのだ。
ニューラルネットワークのパラメーター数が増大すると、Gatoの性能も向上する
提供:Reed et al. 2022
また、著者らはその証拠もいくつか示している。Gatoの性能は、モデルの規模が大きくなるほど改善している。論文では、パラメーターの数が異なる3つのモデル(7900万パラメーター、3億6400万パラメーター、メインモデルである11億8000万パラメーター)を用意し、各ベンチマークタスクの平均スコアを比較している。著者らは、「トークン数が等しい場合、モデルの規模が大きいほど性能が大幅に改善されることが明らかになった」と述べている。
論文では、興味深い今後の課題として、ジェネラリストAIは他の種類のAIプログラムと比べて危険なのかという問題について検討している。論文では、まだ十分に理解されていない潜在的な危険が存在することについて、かなりの紙幅を割いている。
素人なら、複数のタスクを扱えるプログラムがあると聞けば、人間の適応力に似たものを持っていると思ってしまいかねないが、それは危険な誤解かもしれない。論文では、「例えば、物理的な身体性の付与は、ユーザーがエージェントを擬人化することに繋がる可能性があり、機能が正常でないシステムを誤って信頼したり、悪質なアクターに悪用されたりすることにつながる可能性がある」と述べている。
「それに加え、機械学習に関する研究では、しばしば領域横断的な知識移転がゴールとされる一方で、一部の振る舞い(例:アーケードゲームの戦闘)が誤った文脈に移転された場合、そのことが予想外の望ましくない結果を生み出す可能性がある」
このため著者らは、「ジェネラリストシステムの進歩に応じて、知識移転についての倫理や安全性に関する検討のために、大規模な新たな研究が必要になるかもしれない」と述べている。
(興味深いことに、Gatoの論文では、元GoogleのAI研究者であるMargaret Mitchell氏らが考案した、AIのリスクを記述するための「Model Card」と呼ばれる仕組みが使われている。Model Cardは、AIプログラムがどういうものであり、どういう機能を持ち、動作に影響を与える要因にどんなものがあるかを簡潔にまとめたものだ。Mitchell氏は2021年に、GoogleのAIに関する倫理への対応をめぐって同社のAI責任者と衝突した元同僚のTimnit Gebru氏を支援したことで、Googleを解雇された)
汎用性を追求するGatoの研究方針は、決して珍しいものではない。この研究は、AIの汎用化と、大量の処理能力を必要とする大規模モデルの重視という大きなトレンドの中に位置するものだ。Googleがこの方向性に進んでいる兆候が最初に見られたのは2021年夏のことだった。同社は、「Perceiver」と呼ばれるニューラルネットワークで、従来はテキストの処理に使われることが多かったTransformerの対象を、画像や、音や、LiDARの空間座標などにも広げた。
Googleの研究者らが2022年4月に発表した「Pathways Language Model」(PaLM)も同様の研究の1つだ。このモデルは、Googleが開発した「Pathways」と呼ばれる技術を使って構築されたもので(この技術は数千個のチップのオーケストレーションを行う仕組みを備えている)、5400個のパラメーターを持っている。また、1月にMetaが発表した「data2vec」というニューラルネットワークは、Transformerを使って、画像データ、話し言葉の音声波形、テキストによる言語表現をすべて処理している。
Gatoの新規性は、非ロボット工学的なタスクに使用されているAIを、ロボット工学の世界に持ち込もうとしている点にある。
Gatoの開発者は、Pathwaysをはじめとするジェネラリストアプローチの成果に着目しつつ、AIの究極の形は、現実世界での動作を含む、あらゆる種類のタスクを実行できるAIだと考えている。
「今後の研究では、こうしたテキスト処理能力を、現実世界の多様な環境や身体化の形態でもリアルタイムに活動できる、完全なジェネラリストエージェントと統合する方法について検討する必要がある」
つまりGatoは、AIが扱っている最も難しい問題であるロボット工学の問題を解決するための重要なステップだと言えるだろう。