【東京大学松尾・岩澤研究室】ディープラーニングで「世界」を獲得する

データサイエンス百景TOP
最新研究
【東京大学松尾・岩澤研究室】ディープラーニングで「世界」を獲得する

公開日：2023.10.15 最終更新日：2023.08.28

東京大学松尾・岩澤研究室

鈴木雅大特任講師

SUZUKI Masahiro

東京大学大学院
工学系研究科
松尾・岩澤研究室所属
専門：転移学習／深層生成モデル／マルチモーダル学習／世界モデル

日本においてAI（人工知能）やディープラーニング（深層学習）を語るうえで欠かせない研究拠点と言えば、「東京大学松尾研究室」。東京大学大学院工学系研究科松尾豊教授率いる研究室だ。ここからAI系スタートアップ企業も多数誕生している。日本最高峰のAI研究室で今、何が行われているのか。特任助教の鈴木雅大先生に話を聞いた。

2012年前後からディープラーニングに着目

ChatGPTなど生成AIの登場によって、誰もが気軽にAIを扱える時代に突入した。機械学習の手法のひとつである「ディープラーニング（深層学習）」という言葉もすっかり一般化している。このディープラーニングにいち早く着目し、さまざまなイノベーションを生み出している研究室がある。東京大学大学院工学系研究科松尾豊教授率いる「松尾研究室」だ。

ディープラーニング（深層学習）とは？

今回登場する用語の位置づけはこちら

「松尾研究室では、『知能を創る』をビジョンに掲げ、さまざまな研究に取り組んでいます。もともとはWeb系の研究室だったのですが、2012年前後から松尾先生が“画期的な技術”としてディープラーニングに着目して、それ以降は、ディープラーニングを用いた基礎研究を主に行う研究室になっていきました。国内でもかなり早い段階で、ディープラーニングに着目した組織だと思います。私が大学院博士課程で参画した2015年の段階では、まだWebアプリケーションのビジネス応用などを研究している人が多かった印象があります」

そう語るのは、東京大学松尾研究室の特任助教鈴木雅大先生。自身もAIの「深層生成モデル」「マルチモーダル学習」（いずれも後述）といった分野の研究に取り組むほか、「Deep Learning基礎講座」などの授業も担当している。

シリコンバレーのようなエコシステムを実現する

2000年代にスタンフォード大学に留学して、最先端のAI研究をしていた松尾教授は、のちにGAFA（Google、Amazon、Facebook、Apple）と呼ばれる巨大テック企業が大学と密に連携して研究をしている現場を見て、衝撃を受けたという。そこで、大学と産業界の距離が近い日本のシリコンバレーのような場所をつくろうと考えてできあがったのが現在の体制だ。松尾研究室は、18社のAI系スタートアップ企業を輩出しており、その数はますます増えそうだ。

世界を認識し、未来を予測する「世界モデル」

そんな松尾研究室が「知能を創る」というビジョンを実現するうえで、不可欠な研究テーマが「世界モデル」だ。これは、「外界から得られるさまざまな観測情報に基づいて、世界の構造を学習によって獲得するモデル」を指す。ここで言う「学習」とは、AIの機械学習であり、ディープラーニングのこと。気になる「世界モデル」について、鈴木先生に詳しく聞いていこう。

「『世界モデル』というのは、私たちが世界をどのように認識（推論）しているか、さらにその認識によって未来をどのように予測しているのかを明らかにする研究です。よく使われる例として、（野球の）ボールが飛んできて、バットを振って当てるという行為がありますよね。ボールが飛んでくるのは、ものすごく速い。一方で私たちがそれを目で認識して脳に伝えて、脳がバットを振れ！と腕や肩の筋肉に指令を出してというのは、それよりずっと遅いんです。普通に計算したらできない。なのに、できるというのは、ボールが来る数マイクロ秒前から脳が無意識にボールの軌道を予測して、それに基づいて筋肉を動かしているんです。私たちは目の前の現象に対処しているように見えて、実は常に未来を予測して行動している。なぜ、そんなことができるのか。それは、頭の中に『世界モデル』を構築しているからだと説明できるわけです」

鈴木先生によれば、人間は、ある特定の行動をすると世界はこうなるだろうという予測モデルを頭の中につくっていて、日々のさまざまな試行錯誤を通じて、これをブラッシュアップしていくという。例えば、赤ちゃんはテーブルの上のコップを倒すことによって、水がこぼれることを覚え、家の中の「世界」を認識していく。その構造をAIにも搭載しようというのが、「世界モデル」という研究になる。

これまでの「ルールベース」と呼ばれるAIは、何らかの命令を受けて、決まったアルゴリズム（計算手法）の通りに反応するもので、自律的に未来を予測することはできなかった。「世界モデル」自体は、決して新しいものではない。概念としては、100年以上前からあり、1990年代からスイスのAI研究者ユルゲン・シュミットフーバー氏らもその重要性を指摘していた。ただ、当時はマシンパワーの問題もあり、この世界をそのままモデル化するのは、情報量が多すぎて難しいと考えられていた。

しかし、2018年にGoogle Brain（当時）の研究者デビッド・ハー氏が「World Models」という論文を発表し、ディープラーニングによって世界をモデル化できることが実験的に実証される。この論文で、外界から情報を獲得して予測に役立てる際に、「世界モデル」の中だけで、自らが次にどのような行動をすべきかをAIが学習できることが示されたのだ。

「通常、AIを搭載したロボットに現実の空間を認識させようとしたら、外界とのインタラクションを通して、自分が次にどう行動すべきかを学ばせます。例えば、AIクリーナーは壁があったら前には進めない、方向を変えようということを実際の行動を通して学習するわけです。しかし、AIが『世界モデル』を獲得できれば、その情報空間の中で試行錯誤することができます。イメージとしては人間のイメトレみたいなものです。実際に身体を動かさなくても、想像して、それによって訓練ができるわけです。ロボットは実機なので、過酷な環境で動かし続ければ、どうしても故障します。しかし、世界モデルの中で訓練できれば、故障のリスクも減らせるし、効率的な学習も可能になります」

外界とのインタラクションによって「世界」を獲得する

研究の柱はふたつ。

外界の情報からどうやって「世界モデル」を獲得するか
獲得した「世界モデル」に基づいてどのように振る舞いを学習するか

専門的には後者は「強化学習」と呼ばれる研究を用いるという。

「『世界モデル』の構築は、コンピュータシミュレータを人間がつくるのに近いと思われがちです。しかし、両者は明確に違います。これまでのシミュレータは、人間がルールをつくって動かしていました。一方、私たちがつくっている『世界モデル』は、このルールを自律的な学習によって獲得します。人間の赤ちゃんだって、外界とのインタラクションによって、自然に学習して、『世界モデル』を形成していきますよね。これと同じことをAIで実現しようとしているのです」

松尾研究室では、「世界モデル」を「子どもの知能」と表現している。計算による高次の推論をしたり、論理的な思考をしたり、長期の計画を立てるのは「大人の知能」。AI研究では、「推論」や「探索」と呼ばれる分野だ。

「かつてのAIブームにおいて、研究者たちは『大人の知能』を実現しようとしてきました。それがうまくいかなかった理由は、AIが『世界』について無知だったから。計算機上でうまくいったアルゴリズムが、現実世界ではうまく動作しなかったのです。現実世界で自然に動作し、私たちをサポートしてくれるAIをつくるには、世界を認識する、つまり『世界モデル』を獲得する必要があるのです」

テキスト、画像、音声を統合して学習する「マルチモーダル学習」

外界とのインタラクションによって取得できるデータは、テキスト、画像、動画、音声、触覚情報など実にさまざまだ。こうした複数の異なるセンシングデータを統合して学習するAIの研究領域を「マルチモーダル学習」と呼ぶ。これが鈴木先生の専門分野だ。

「私は複数のモダリティを統合して、AIが世界をどう獲得するか、認識するか、予測するかという研究をしています。私はこの基盤として、『深層生成モデル』と呼ばれる技術を用いることを提案しています。つまり、マルチモーダル学習に深層生成モデルを用いることで、世界モデルにおいてマルチモーダル情報を利用しようとしているのです。なお、流行りの生成AIも深層生成モデルのアプリケーションのひとつといえます」

マルチモーダル学習に深層生成モデルを用いることで、「世界モデル」と「マルチモーダル情報」がつながる

少し整理しよう。世界を認識し、予測を立てる「世界モデル」は、深層生成モデルというディープラーニングを用いた技術をベースに成り立っている（※）。一方で、話題のChatGPTに代表される「テキスト生成AI」は、LLM（大規模言語モデル）をベースにしている。鈴木先生は、外界から得られる情報に基づく世界モデルによる予測を「直感型」、言語情報を用いたLLMによる段階的な推論を「熟考型」と位置づけている。
※深層生成モデルを用いない世界モデル研究もある。ここでは松尾研究室の手法を紹介。

「システム1」から「システム2」へ移行する

「システム1、システム2という考え方があります。これはノーベル経済学賞を受賞したダニエル・カーネマンという経済学者が提唱しているもので、システム1が直感的な速い思考、システム2が熟考型の遅い思考です。『子どもの知能』にあたる世界モデルはシステム1、『大人の知能』にあたるLLMはシステム2と考えることもできます。最近のAI研究では、システム2（＝LLM）から世界を認識するアプローチが主流です。しかし、システム1（＝世界モデル）の基盤があってこそ、システム2での世界認識が可能だと私は考えています」

人間は大人になる過程で、外界とのインタラクションを通して、「世界モデル」を獲得し、そこに言語による意味づけが足される。言い替えるとシステム1からシステム2へ移行しながら世界を認識している。一方、LLMを用いたAI研究では、システム2からシステム1への移行によって、「知能」の実現を目指している。つまり人間とは逆の過程をたどっているという。

鈴木先生はさらにこう付け加える。ポイントは、認識→行動→言語というプロセス。

「テキストベースの情報だけのLLMがどんなに進化しても実世界で活動できる知能を実現するのは難しいかもしれません。バットでボールを打つ理論はいくらでも語れるけれど、実際に打ったことはないという状態です。そこで、私たちはまず外界の情報を認識する方法を学んだ後に、外界とのインタラクションを通じて『行動』を獲得し（例えば『持つ』や『歩く』といった行動の概念を自律的に学ぶ）、言語での理解に移行するルートが重要だと考えます。つまり、人間の成長と同様に、認識→行動→言語の順番で発展していくべきなのです。ディープラーニングや『世界モデル』の実現によって、AIは世界を認識できるようになりつつあります。次は言語の前に行動なのです。ロボットなどを使った身体的な経験から世界モデルや行動が獲得され、そこにLLMが融合したとき、ついに我々のような『知能』の実現に近づくのかもしれません」

AI研究を志すならできるだけ「まわり道」をしてほしい

松尾研究室では現在、深層生成モデルなどディープラーニングの基礎研究に加え、ロボティクス、Brain-Inspired Intelligence（神経科学知見を用いた知能研究）など、幅広い研究テーマに取り組んでいる。「知能を創る」というゴールに向かう方法に正解はない。それだけに、さまざまなルートでのアプローチが必要なのだ。

松尾研究室は、東京大学大学院工学系研究科に属するので、メンバーになるには、東京大学工学部を目指すのがシンプルなルートになる。また、東京大学の他学部や他大学を卒業後、大学院から東大の工学系研究科に進学し、松尾研究室に所属するメンバーも多い。最後に鈴木先生から、AI研究に興味がある受験生へのメッセージをいただいた。

「AIはある意味では最適解を求めるコンピュータの仕組みです。しかし、これからAI研究を志す受験生には、できるだけまわり道をしてほしいと伝えたい。プログラミング言語や機械学習の手法をストレートに学ぶだけでなく、SF小説や哲学書を読んで幅広い教養を身につけることで、研究における創造力が広がります。『知能を創る』という研究における正解は誰にもわかりません。大人たちの言うことを鵜呑みにせず、自分で調べて、いろいろな方法を試して、とことん考える訓練を続けてください。それこそが研究者に欠かせない資質になると思います」

プロフィール

鈴木雅大
東京大学松尾研究室特任講師

北海道大学大学院情報科学研究科修了後、博士課程より東京大学大学院工学系研究科松尾研究室に参画。博士号取得後、特任研究員を経て、現在は特任助教として、「Deep Learning基礎講座」「深層生成モデル」「世界モデルと知能」などの講義を担当している。専門分野は、転移学習、深層生成モデル、マルチモーダル学習、世界モデル。いずれもディープラーニングを用いた基礎研究分野だ。

研究室の詳細

東京大学松尾・岩澤研究室

松尾研究室は、人工知能やウェブ、ビジネスモデルの領域で、理論研究から社会実装までの幅広い活動を一気通貫して行う。また、データサイエンスや深層学習の領域で、教育活動や啓蒙活動、産学連携の研究活動等も行っている。東京大学大学院工学系研究科技術経営戦略学専攻所属。
詳細はこちら
東京大学松尾・岩澤研究室

Text by 丸茂健一（minimal）／Illustration by 高橋由季

UNIVERSITY INFO

東京大学工学部

Faculty of Engineering
THE UNIVERSITY OF TOKYO

AI・データサイエンス系のTOP研究室が集結

AI・データサイエンス系のTOP研究室が集結

情報技術で社会変革を！メタバース工学部にも注目

「情報、ネットワーク、メディア」技術で社会を変革し、文化を築くことを目指す電子情報工学科、情報に形を与え、モノに命を吹き込むことを目指す機械情報工学科などAI・データサイエンス系を学べる学科が多数ある。ディープラーニング（深層学習）の「松尾研究室」、人間拡張工学の「身体情報学分野稲見・門内研究室」などのTOP研究室に入れる可能性も広がる。2022年7月設立の「メタバース工学部」も注目だ。