データサイエンス百景

未来の解像度を上げるデータサイエンス系大学進学情報サイト

【明星大学】なぜ言葉は通じるのか——計算言語学で「いい文章」の仕組みを解明する 【明星大学】なぜ言葉は通じるのか——計算言語学で「いい文章」の仕組みを解明する

【明星大学】なぜ言葉は通じるのか——計算言語学で「いい文章」の仕組みを解明する

明星大学 情報学部 計算言語学研究室

横野 光 准教授
横野 光 准教授
YOKONO Hikaru
明星大学
情報学部
計算言語学研究室
専門:計算言語学、自然言語処理

AI(人工知能)が文章を書く時代に、わざわざ「言葉」を研究する意味はどこにあるのか。明星大学情報学部 計算言語学研究室の横野光准教授は、計算機(コンピュータ)を使って大量のテキストを分析し、「いい文章とは何か」という根源的な問いに挑んでいる。作文教育の支援から多文化コミュニケーションまで——文系・理系の枠を超えて言葉の謎を解き明かす最新の研究とは?

「計算機」で言葉の仕組みを明らかにする

この文章は読みやすい——そう感じることはあっても、「なぜ読みやすいのか」を理路整然と説明できる人は少ない。私たちは普段、言葉が通じることをあまりに当たり前のものとして受け取っている。

「こうして話している言葉が、どうして相手に通じるのか——。考えてみると、とても不思議ですよね。『わかるからわかる』としか言いようがない。その『なぜ通じるのか』を情報学の知見を用いて解き明かしたいと考えています」

こうして話している言葉が、どうして相手に通じるのかを情報学の知見を用いて解き明かしたいと考えています

そう語るのは、明星大学情報学部の横野光准教授だ。専門は「計算言語学」。私たちが日常的に使っている自然言語(人間の言葉)を、計算機(コンピュータ)を使って処理し、その性質を明らかにする学問だ。

「言語学は個々の言語現象や実際の言語使用を詳しく観察・分析することで言葉そのものの仕組みを明らかにしようとするのに対して、計算言語学は計算機という道具を使い、大量の言語データを統計的に扱うことで、言語の仕組みを明らかにしようとする学問分野です。話題のChatGPTのような大規模言語モデル(LLM)の研究もこの分野に含まれます」

「いい文章とは何か」を統計学で「見える化」する

横野准教授が現在メインで取り組んでいるのが、「作文教育支援の研究」だ。小中学校の教育や日本語学習者を対象に、「いい文章とは何か」を明らかにし、学習者の作文を支援するシステムの開発を目指している。

「いい文章かどうかは、母語話者や先生であれば判断できます。しかし、『なぜいいのか』を説明してくださいと言われると、途端に難しい。そこで、その判断を支えている特徴をデータから統計学的に見つけ出していくわけです」

いい文章が『なぜいいのか』の判断を支えている特徴をデータから統計学的に見つけ出していく

例えば、よく挙げられるのが「主語の一貫性」だ。「私は大学で情報学を教えている。私は自然言語処理を研究している」と主語が揃っていれば読みやすい。ただ、揃えすぎて、「私は、私は」を繰り返すと今度はくどくなる。すると、適度な省略も必要になる。では、「いい文章」とは、どのように主語が一貫していて、どれくらいの間隔で主語を省略しているのか——。それを大量の作文データから分析していく。

ここで、横野准教授が用いるのが、「エンティティグリッド(Entity Grid)※」と呼ばれるモデルだ。文章中の動詞と名詞の格関係(主語・目的語など)の移り変わりに着目する。

「『私が娘にプレゼントを買った』という文では、『買う』という動詞に対して、主語が『私』、目的語が『プレゼント』という格関係があります。文章が進むなかで、ある語が主語から主語へ、あるいは目的語から主語へ……とどう移っていくか。その遷移をマトリックス(行列)にして、どれくらいの割合で起きているかという観点で文章をモデル化するのです」

エンティティグリッドの例

このようにしてテキストから様々な数量的な特徴を抽出し、それらと人がそのテキストに対して付与した評価点とその相関を統計的に分析する。すると、高く評価される文章にどんな特徴が現れるのかが、客観的に「見える化」されるという。まさに「言語+データサイエンス」の研究だ。

※Regina Barzilay, Mirella Lapata, ”Modeling Local Coherence: An Entity-Based Approach”, Computational Linguistics, 34(1):1-34, 2008

「言葉なら何でも研究対象」 自由な研究室のスタンス

横野准教授が担当する計算言語学研究室の学生たちは、それぞれ自由なテーマで研究に取り組んでいる。

「言葉を扱うものなら何でも研究対象にするというのがうちのスタンスです。AIで歌詞を自動生成する研究をしている学生もいれば、対話システムの要素技術を研究する学生もいる。なかには、人気のある異世界小説は内容的に何が違うのかをテキストマイニング(※)を用いて分析した学生もいます。研究者である私自身も学生の研究を近くで見て、一番楽しんでいます(笑)」

小説投稿サイトには膨大なデータがあり、テキストマイニングの格好の素材になる。実際に書かれたものがどのような特徴を持つのかをデータで裏づける研究によって、「ヒット小説の書き方」のノウハウ本が生まれる可能性もあるだろう。

※テキストマイニング:大量のテキストデータをコンピュータで分析し、そこから意味・傾向・パターンなどを抽出する技術。

「言葉なら何でも研究対象」 自由な研究室のスタンス

小説、キャッチコピー、俳句——
「なぜ通じるのか」への興味が原点

横野准教授が言葉そのものへ関心を持ったのは、学生時代にさかのぼる。

「もともと小説が好きで、いろいろなジャンルの文章に興味がありました。糸井重里さんのキャッチコピーなんて、わずか数文字、ワンセンテンスにも満たないフレーズなのに、こちらからいろんな情報を引き出してくる……。あれはなぜなんだろう?と考えていましたね」

大学院修士課程の頃には、俳句の研究にも取り組んだ。たった17文字のなかに、情景がぎゅっと圧縮されている。その圧縮された情報をどうすれば引き出せるのか。そのためにはどんな知識が必要なのか——そんなことに取り組んでいたという。

大学院修士課程の頃には、俳句の研究にも取り組んだ

言語研究を進めるほど、その「沼の深さ」を思い知らされると横野准教授は笑う。それでも根っこにあるモチベーションは一貫している。わからないからこそ、明らかにしたいのが、「言葉とは何か」「なぜ通じるのか」という素朴な疑問だ。

近年は、言語学者が大規模言語モデル(LLM)を使って研究する事例も増え、計算機と言語学はますます接近している。そんなトレンドのなかで、横野准教授が見据えるのは、計算機によって、言葉の本質に少しでも近づくことだ。

「LLMは、単純に言えば『どのような言葉がどのような文脈で現れやすいか』という知識を学習して文章を生成しています。『朝ごはんに』と来たら、次はパンかご飯が来るだろうと。意味を理解しているわけではないのに、あたかも意味がわかっているかのように振る舞う。そこが面白いところです。一方で、LLMのおかげで、これまで手間のかかっていた処理がぐっと楽になりました。本当にやりたかった『言葉の本質』の研究に、ようやく手が届くようになってきた。実はLLMによって、かなり助けられている面もあります」

AIが生成した文章の責任を取るのは「人間」

AIが文章を書く時代だからこそ、人間に求められる力があると横野准教授は強調する。

「AIに文章を代筆してもらうのは構いません。でも、それを発信するのは人間で、責任を取るのも人間です。『AIが書いたので』と言って逃げることはできない。だとすれば、AIが出してきた文章が本当に妥当なのか、自分の言いたいことを満たしているのかを検証する力は、これからも人間に必要です。自分でも書けるけれど面倒だから任せるのはいい。でも、自分では書けないから任せる、というのは根本的に違う。最終的に責任を取る覚悟があるか——そこは大事にしてほしいですね」

AIが出してきた文章が本当に妥当なのか、自分の言いたいことを満たしているのかを検証する力は、これからも人間に必要

言葉の研究の先に横野准教授が期待しているのは、その社会的な意義だ。日本でも海外ルーツの子どもたちが、同じ教室にいるのが当たり前の時代になってきた。なぜ言葉が通じるのか、どうすれば誤解なく伝わるのか——。それがわかれば、教育現場における言語教育や多文化コミュニケーションの底上げにもつながると考えている。

最後に横野准教授から、情報学や自然言語処理の分野に興味のある受験生に向けたメッセージをいただいた。

「本が好きな人にぜひ興味を持ってほしい研究です。もちろん漫画でも構いません。『この言い方、なんでこうなんだろう?』とつい気になってしまうような人なら、きっと楽しめると思います。一緒に『言葉がなぜ通じるのか?』という根源的な謎に迫りましょう」

【プロフィール】

横野 光
明星大学 情報学部 准教授

2003年 岡山大学工学部情報工学科卒業。2005年 同大学院自然科学研究科電子システム情報工学専攻修士課程修了。2008年 同大学院自然科学研究科産業創成工学専攻 博士課程単位取得満期退学。博士(工学)。東京工業大学精密工学研究所博士研究員、国立情報学研究所特任助教、富士通研究所シニアリサーチャーなどを経て、2021年より現職(2023年より明星大学データサイエンス学環准教授を兼任)。専門は計算言語学、自然言語処理。

研究室の詳細

計算言語学研究室

人間がコミュニケーションなどで日常的に用いている自然言語(ことば)について、計算機によるモデル化を通してその性質を明らかにすると同時に、自然言語を理解できるシステムの研究に取り組む。対話システムや言語学習者への教育支援システムの開発など具体的なタスクの研究を通して、ことばの性質を明らかにすることを目指している。
詳細はこちら
明星大学 情報学部 計算言語学研究室

Text by 丸茂健一(minimal)/Photo by 石垣星児/Illustration by 竹田匡志

2026年度オープンキャンパス全日程を公開!

2026年度オープンキャンパスの日程が決定!
5/24(日)、7/19(日)、8/8(土)、8/9(日)、8/23(日)の全5日で実施する。

どうやら明星大学には「メイ星人」がいるらしい。
明星大学について知り尽くしている「メイ星人」。
明星大学のこと、大学生活のことなど、いろいろ聞いてみよう!
さぁ、あなたは何人の「メイ星人」に会えるかな!?!?

それぞれの申し込み開始時期は以下のとおり。

  • 7月 → 予約開始
  • 8月 → 7月初旬申込開始予定

詳細はこちら
明星大学 【高校生・受験生のみなさん】2026年度オープンキャンパス全日程を公開!

UNIVERSITY INFO

明星大学情報学部
MEISEI UNIVERSITY
School of Information Science
やりたいことが見つかる! データサイエンス&AIをベースに幅広く学べるカリキュラム
明星大学情報学部
やりたいことが見つかる! データサイエンス&AIをベースに幅広く学べるカリキュラム

常に進化するデジタル社会に対応できる人材を育成

AIやデータサイエンス、ネットワーク、CG、音楽情報、サイバーセキュリティ、認知科学など、現代社会を支える情報技術を基礎から幅広く学ぶことができる学部。単なる知識習得にとどまらず、「社会で情報技術をどう活用するか」という実践的視点を重視した教育を展開。生成AIやIoT、クラウドサービス、VR、情報セキュリティなど、急速に進化するデジタル社会に対応できる人材を育成している。

カテゴリ

私立大学

学部・学科

【データサイエンスを学べる学部】
■情報学部 ■データサイエンス学環
【その他の学部】
■理工学部 ■経済学部 ■建築学部 ■人文学部 ■教育学部 ■経営学部 ■心理学部 ■デザイン学部

所在地・アクセス

日野キャンパス
〒191-8506 東京都日野市程久保2-1-1
多摩モノレール「中央大学・明星大学駅」直結
京王線「多摩動物公園駅」から徒歩8分

問い合わせ先

アドミッションセンター
TEL:042-591-5793
詳しくはこちら
TOP