【東京大学 松尾・岩澤研究室】「NEDO 採択プロジェクト」 多様な日本語能力の向上を目指した公開の基盤モデル開発

概要

本活動では、2023年8月に公開した100億パラメータサイズのLLM「Weblab-10B」の開発経験をベースに、東京大学松尾研究室が提供する大規模言語モデル講座(2023年9月開催、2000名が受講)の修了生及び松尾研究室講座修了生および一般公募によって集まった有志の開発者(⺠間企業・研究者・学⽣で構成)が、最新の研究成果や技術的な知見を取り入れ、開発を進めます。

一般的にLLMの最適なモデル構造やハイパーパラメータの詳細については十分に分かっていないため、第1フェーズにおいては8チームに分かれて複数の研究テーマを設定し探索を行い、知見を共有しながら試行錯誤することで、実用的かつ効率的な手法を採用します。その後第2フェーズでは、最優秀に選ばれた1チームが500億パラメータサイズのLLM開発に取り組むことを予定しています。

特徴

透明性の高い非営利の公開型プロジェクトを目指します。

チームの組成から、データセット、ベースラインモデル、開発プロセスや進捗、コミュニティの交流、完成したLLMモデル(8つの10Bモデル, 1つの50Bモデル)を、開発過程を含め、全て情報を可能な範囲で発信し公開するため、開発メンバーだけでなく、本PJのコミュニティメンバーや、オンライン上の全ての人が情報にアクセスできる様にします。

目的

下記を目的にし本企画を推進していきます。

  • 日本国内に100名規模のLLM開発経験者を育成する。
  • 透明性の高い情報公開やコミュニティの運用により開発メンバー以外にもデータや開発ノウハウを普及させる。
  • 50Bの日本語LLMを開発、公開する事で社会貢献および国内のLLM実装を加速させる。

開発プロセス

Phase 1では、各チーム最大25名 x 8チームを組成、0.1B,1B,10Bと段階的にLLMモデルを開発。
Phase2 ではPhase1で結果が良かったチームを中心に再度チームを組成し50Bクラスのモデルを開発。
完成したモデルは全ての公開する予定。

情報の透明性が重要な為、立ち上げ時点からコミュニティ運用、プロセス、データ等々全ての情報を透明にし進める。
学習したモデル、学習用コード、データセット、開発の過程も全て公開することで日本全体の技術レベル向上を目指す。
各チームにリーダーを配置しリーダーはプロマネ、毎週または隔週程度での進捗共有mtg、プロセスの情報開示を行う。


松尾研側の運営やWeblab10Bの開発者メンバー含む支援チームのサポートが、プロジェクトマネジメント、開発サポート等、全面的にバックアップします。

詳細はこちら

[NEDO 採択プロジェクト]多様な日本語能力の向上を目指した公開の基盤モデル開発
タイトルとURLをコピーしました