【みんなの疑問】そもそもデータサイエンスってどんな学問?
総合数理学部
生成AIや自動運転技術が何かと話題の今、情報系、データサイエンス系の学部・学科をチェックしている受験生も多いだろう。そこで、志望する大学を調べる前に知っておきたいのが、「そもそもデータサイエンスってどんな学問?」ということ。そこで、明治大学総合数理学部の中村和幸教授に詳しく聞いてみた。
——データサイエンスとは、そもそもどのような学問なのでしょう?
データサイエンスは、現代社会にあふれるさまざまなデータを科学的に読み解き、有用な価値を見出す学問です。基盤となるのは、統計学、数学、情報科学、コンピュータサイエンスなどです。応用数学の1分野である数理科学(Mathematical Sciences)をルーツとする学問であるという考え方もあります。
現在のデータサイエンスにつながる近代的な統計学は、100年以上前から存在していました。カール・ピアソン(1857-1936)、ウイリアム・ゴセット(1876-1937)、ロナルド・フィッシャー(1890-1962)といったいずれもイギリスの統計学者によって、現在でも使われる統計学や確率論のさまざまな手法が提示されました。特に、ウイリアム・ゴセットが開発した「t分布」などは、統計学を習うと必ずと言ってよいほど出てくるよく知られたものです。
当時の統計学とデータサイエンスの違いは、扱うデータの量が膨大であること。最新のコンピュータを使って、いわゆる「ビッグデータ」を効率よく計算する手法を用いるのが現代のデータサイエンスです。データサイエンスの応用先は幅広く、統計学や情報科学だけでなく、経済学、心理学などでも用いられます。いずれにせよ、理系から文系までさまざまな分野を横断する新しい学問であるといえます。
——データサイエンスが注目されるようになった理由は?
先ほどもお伝えした通り、インターネットの出現によって、有用なデータが大量に使えるようになったことが大きいと思います。昔は、データの保存にも通信にも大変な費用がかかりました。2000年代に入り、インターネットが普及したことで、さまざまなデータを気軽に研究利用できるようになりました。さらに、2012年頃に機械学習やディープラーニング(深層学習)といったAI(人工知能)の技術において、大きな技術革新があったことから、一気にデータサイエンスが注目を集めるようになりました。
——歴史的背景はわかったのですが、データサイエンスとは何をする学問なのか詳しく教えていただけますか?
データサイエンスは、データから新しいモノの見方を発見する学問といってもいいでしょう。データサイエンスを学ぶ上で大切なのは、データから何を知りたいのか? 目的のためにデータをどう扱うのか? という視点です。
授業や高校での説明会で、私はデータサイエンスを料理に例えて説明します。料理では、野菜や肉といった「材料」を包丁や鍋などの「道具」を使って、目的のモノに仕上げていきます。同様にデータサイエンスでは、各種データという「材料」を数式やコンピュータ(計算機)を使って、価値あるモノに仕上げていきます。
ここで重要になるのは、「材料」にあたるデータです。いい材料がなければ、いい成果は期待できません。また、材料に合わせて、「道具」も使い分けます。宝探しであれば、宝物の形状に合わせて、重機を使うか、スコップを使うか考えますよね。データサイエンスの手法においても、まずデータを適切な状態に整えて、統計学の理論や機械学習といったさまざまな手法で目的の形に仕上げていきます。
——データサイエンスを使った研究テーマを具体的に教えてください。
明治大学総合数理学部の私の研究室の事例をいくつか紹介しましょう。
■集中豪雨の短時間予測
気象データを使って、この雲の動きならこのくらいの雨が降るだろうという予測をします。もともと古典的な天気予報は、「ナヴィエ-ストークス方程式」など流体力学や熱力学の方程式から導き出したシミュレーションをもとに行っていました。その精度は決して悪いものではありません。しかし、最近では、雨量レーダーや人工衛星の技術が進んで、最短で250メートルごとの雨や雲のデータをほぼリアルタイムで取得できるようになりました。ここがまさにデータサイエンスの出番で、過去の膨大な雲のデータパターンを学習して、それと現在の雲の動きを比較することで、30分後、1時間後の雨のパターンを算出することができるようになりました。こうした過去の膨大なデータから法則を導き出すのが、データサイエンスの得意分野のひとつです。
■医療データを用いたAI診断支援
がんの疑いのある肺のX線画像、何らかの異常のある脳波のパターンをAIに学習させて、医療診断の支援に役立てる研究です。X線画像の診断などはすでに多くの医療機関でも活用の研究が進められています。現時点では、AIによる医療行為はできませんが、医療の支援は可能です。過去データから異常を高い精度で発見することで、医師の負担を軽減する研究が進められています。
ほかにも自治体から過去のデータを提供してもらい農作物の収穫量を予測する研究、タイミングを合わせてアクションするタイプの音楽ゲームの難易度を譜面から算出して定量化する研究などに取り組んでいる学生もいましたね。
——データサイエンス系の授業では、どのような課題に取り組みますか?
コンピュータを使って、さまざまな現象を分析し、将来を予測する課題などに挑戦します。対象となる現象をどう見るか? そのためにどのような手法を用いるか? がポイントになります。
私たちがデータサイエンスの手法を用いてやっていることは、簡単にいうとさまざまな現象を数式や表に落とし込むことです。これを「モデル化」と表現します。モデル化=「抽象化」と考えてもいいでしょう。モデル化することで、現象の本質が浮かび上がり、分析しやすくなります。
私たちは、「統計モデル」や「数理モデル」という言葉を使います。厳密な使い分けではありませんが、統計モデルは統計学に用いる数式を表すもので、数理モデルは主に微分方程式などさらに高度な数式を指すのが一般的です。新型コロナウイルスが蔓延した際に話題になった「SIRモデル」などが数理モデルの例になるでしょう。これは、感受性保持者(Susceptible)、感染者(Infected)、免疫保持者(Recovered)を微分方程式でみごとに表現した数理モデルです。一方、大学の情報系学部や経済学部などで学ぶ複数の変数を用いる「重回帰分析」などは、統計モデルと考えるのが妥当でしょう。
数理モデルは演繹的、統計モデルは帰納的な計算手法の役割を担います。先ほどの「集中豪雨の短時間予測」の研究事例でいうと物理学の方程式を用いた古典的な天気予報の手法は数理モデル、機械学習を使った雲のパターン認識は統計モデルだと言えます。昨今注目を集めているChatGPTなどの生成AI技術を支える「生成モデル」は、ビッグデータを使った予測の手法を応用した統計モデルだと考えていいでしょう。
少し脱線してしまいましたが、私が明治大学総合数理学部で担当する科目「現象のモデリングとシミュレーション」では、以下のような課題に挑戦します。
そして、以下が課題となるレストランの10月売上の数値データのサンプルです。
(※実際には、10/1〜28までのデータを提示します)
こうした資料をベースに学生各自が10月29日、30日、31日の売上を予測する統計モデルを考えます。ここで解答までは紹介できませんが、興味を持った方はぜひ明治大学総合数理学部現象数理学科のWebサイトを調べてみてください。ほかにもさまざまな事例が探せます。
詳細はこちら
明治大学総合数理学部現象数理学科
——最後にデータサイエンスを学ぶことによって、どのような力が身につくのか教えてください。
やはり現象を数値化(=モデル化)することで、ぼんやりしていたイメージを定量化できることではないでしょうか? 先ほど、レストランの売上のデータを例にすれば、「平日のほうがお客さんが多い」「雨の日は売上が悪い」といった共通認識を数値化することで、予測に役立てることができます。
今後はさまざまな分析ツールが登場して、本格的なプログラミングや応用数学の知識がなくても統計モデルを扱える時代が来るかもしれません。しかし、その中身を理解していなければ、出てきた答えを丸ごと信用するしかありません。仮におかしな答えが出力されたとき、その理由を予測して、チューニングするようなスキルを身につけるのがデータサイエンスを学ぶ意義かもしれません。
データサイエンスは、AIやロボットを扱うだけの分野ではありません。統計学をベースとした、経済からスポーツ、医療まであらゆる社会現象をモデル化する学問です。今後はIT業界だけでなく、ビジネスのあらゆる領域でデータサイエンスの知識が求められるようになるでしょう。興味ある人はぜひ情報系、データサイエンス系学部のオープンキャンパスを訪れてみてください。
取材協力:明治大学総合数理学部
Text by 丸茂健一(minimal)/Illustration by TarikVision / PIXTA