【用語解説】生成AIとは？学べる大学の学部・学科も紹介

データサイエンス百景TOP
生成AIとは？

生成AIとは？

生成AI（Generative AI）とは、事前に学習したデータからテキスト、画像、音声、デザインなどを新たに生成するAI（人工知能）のプログラムのこと。大量の学習データからパターンやルールを識別し、確率論的に最適な情報を出力することによって、これを実現している。生成系AIとも呼ばれる。

その多くが人間の脳の神経細胞（ニューロン）の構造を模したニューラルネットワークの一種である「深層学習モデル」で構築されている。話題の「ChatGPT」も生成AIのひとつだ。

具体的には、大規模言語モデル（LLM）、敵対的生成ネットワーク（GAN）、変分オートエンコーダ（VAE）などと呼ばれるさまざまな深層学習モデルを活用することによって、簡単なプロンプト（命令）を入力するだけで、自然な文章や画像だけでなく、オリジナルのプログラムまで生成できることが画期的な要因だ。

生成AIが注目される背景

生成AIは、2022年11月にアメリカOpenAI社が「ChatGPT」を公開したことがきっかけとなり世界中で注目を集めた。

手軽な内容を入力すれば見かけ上違和感の少ない回答を得られることから、ChatGPTはサービス公開後、わずか2か月でユーザーが1億人を超えるほどの速度で普及。他の生成AIも注目されるようになった。

生成AIの種類

生成AIにはいくつかの種類がある。

まずは「テキスト to テキスト」のタイプ。OpenAI社が開発したChatGPT、Googleが開発したGemini（旧Bard）などが有名だ。ちなみに、ChatGPTの「GPT」はGenerative Pre-trained Transformerの略で、TransformerというGoogleが開発した深層学習モデルを使用している。

次に「テキスト to イメージ」のタイプ。これは「Sky（空）」「Dragon（龍）」といったテキスト（自然言語）から自動で画像を生成するもので、Stable Diffusion（ステーブルディフュージョン）、Midjourney（ミッドジャーニー）などがよく知られている。

また、「テキスト to ミュージック」のタイプもある。「Happy（幸せ）」「Spooky（不気味）」といったテキストから自動で音楽を生成する。こちらは、MusicLM、Mubert、Jukeboxなどが有名だ。

さらに、「テキスト to ムービー」のタイプも。テキストや画像から動画を生成できるRunway（ランウェイ）や、PDFなどの長文資料も用いてリアルタイム解説動画を生成できるNoLang（ノーラング）などがある。2024年10月には、アメリカのMeta社がMovie Gen（ムービー・ジェン）を発表。11月現在リリースはされていないが、サンプルを見ることができる。

生成AIの代表的なサービス例

ChatGPT: 生成AIの代名詞ともいえるサービス。2024年現在、テキストだけでなく画像や音声も認識し、音声での応答も可能になっている。
Gemini（旧Bard）: Googleが開発した生成AI。Google検索から最新の情報にアクセスできる強みがある。テキストだけでなく、画像、音声、動画にも対応している。
Stable Diffusion: 画像生成AI。入力したテキストに沿った画像を出力する。当初は英単語を用いる必要があったが、日本語入力を重視したモデルも公開されている。
Midjourney: 画像生成AI。入力したテキストに沿った画像を出力する。当初はコミュニケーションアプリ「Discord」を介する必要があったが、2024年にMidjourneyのウェブアプリの公開によって直接利用が可能となった。
MusicLM: のべ28万時間もの音楽データセットでトレーニングされた、Googleが開発した音楽生成AI。テキスト入力によって求める雰囲気や目的に沿った楽曲を出力する。
Mubert: 音楽生成AI。テキストや画像を入力することで求める雰囲気や目的に沿った楽曲を出力する。ジャンル検索やサンプル音源などを用いることもできる。
Jukebox: OpenAIが開発した音楽生成AI。入力した歌詞に合わせたメロディや伴奏を出力する。特定のアーティストやジャンルを指定することができる。
Runway: Stable Diffusionの開発にも関わったアメリカのRunway AI社による動画生成AI。テキストや画像から高品質な動画を生成。直感的なユーザーインターフェースと多彩な編集機能も備えている。
NoLang: ユーザーが入力したテキストやアップロードしたPDF・Wordの資料をもとに、リアルタイムで解説動画を自動生成。人工音声による読み上げ、表示グラフィックやテキストの自動設定が行われる。
Movie Gen: Meta社が2024年10月に発表した最新の「テキスト to ムービー」タイプの生成AI。シンプルなテキスト入力から、短編動画やプロモーション映像を生成。動画のシナリオや構成を自動的に設定する。
※リリース時期は未定

生成AIで何ができる？

生成AIの普及に伴う学習量の増大からくるコンピュータの高性能化やクラウドコンピューティングの普及、インターネット上に存在するビッグデータの活用によって、生成AIの精度は飛躍的に向上し、使用できる幅も広がっている。

文書作成、画像作成、動画作成にとどまらず、Webデザインやコーディングの領域でも高いクオリティの自動生成が可能。医療、教育、アート、エンターテインメントなど多岐にわたる分野で利用されている。

生成AIを活用するメリット・デメリット

生成AIを用いるメリットとして、まず効率の向上が挙げられる。文書作成、画像生成、コード生成などをいつでも迅速に行うことができるため、コスト削減にもつながる。
他にも自分では思いつけないような新しいアイデアの発掘や、多言語翻訳などによるアクセシビリティ向上など、さまざまなメリットがあり、教育や学習の支援にも活用することができる。

反面、デメリットとして挙げられるのは品質の不確実性だ。出力結果には、誤った情報や学習データの偏りよるバイアスがかかっている場合がある。より高品質な生成AIを構築・運用するには初期投資やインフラ維持費、専門知識が必要となるため、コスト面と技術面の制約も生じる。
また、出力結果には既存のコンテンツを用いられることもあるため、著作権侵害のリスクも存在する。さらにはディープフェイクやスパムコンテンツ生成など、悪意ある目的で利用される恐れもある。

このような品質的、倫理的な課題とともに、社会への影響も取り沙汰されている。自動生成される内容に問題が生じた際に誰が責任を取るべきかが曖昧になったり、自動生成に頼ることによって人間の独創性や個性が軽視される、仕事を奪われる、といった懸念がある。

生成AIを利用する際に注意すべきこと

生成AIを利用する際には、前述のようなデメリットが存在することを踏まえ、自己責任の上で適切な使い方をして、出力結果の検証を行う必要がある。

たとえば、サービスにはそれぞれ提供元があり、入力内容は生成AIに学習され、他のユーザーに提供される。そして、提供先でどのように扱われるかはわからない。このため、個人を特定できる情報や機密情報などは入力しないに越したことはない。

また、教育の現場ではChatGPTの公開当時、実際に生成AIが出力した情報の論文への転用などの問題が発生し、日本の大学も教職員や学生に向けて次々と生成AIの利用に関する留意事項を公開する事態となった。
文部科学省でも生成AIの利用について議論されており、たとえば令和6年度の大学入学者選抜・教務関係事項連絡協議会より、「大学入学者選抜における生成AIの取扱いについて」が公開されている。
詳細はこちら
文部科学省資料「大学入学者選抜における生成AIの取扱いについて」（PDF）
文部科学省令和6年度大学入学者選抜・教務関係事項連絡協議会

実際に生成AIを授業や入試に用いる大学があるが、利用にあたっては引き続き、所属先の留意事項などに従い、さらに自分自身で検討・検証する必要がある。個人的な利用に際しても同様だ。