LINE、NAVERと共同で日本語に特化した超巨大言語モデルを開発

世界でも有数のスーパーコンピューターを活用して、超巨大言語モデルの土台となるインフラの整備を年内に実現。

LINE株式会社（以下、LINE）は、NAVERと共同で、日本語に特化した超巨大言語モデル開発を行なうことを発表した。

超巨大言語モデル（膨大なデータから生成された汎用言語モデル）とは、AIによって、より自然な言語処理や言語表現を可能にするもので、日本語に特化した超巨大言語モデル開発は、世界でも初めての試みになるとのこと。

従来の言語モデルは、各ユースケース（Q＆A、対話など）に対して、自然言語処理エンジニアが個別に学習する必要がある特化型言語モデルや、OpenAIの「GPT（Generative Pre-trained Transformer）」や、Googleの「T5（Text-to-Text Transfer Transformer）」に代表される汎用言語モデルなどがあるが、今回、LINEとNAVERは、世界でも有数のスーパーコンピューターを活用して、超巨大言語モデルの土台となるインフラの整備を年内に実現し、日本語に特化した汎用言語モデルを開発する予定だ。

この開発にあたり、1750億以上のパラメーターと100億ページ以上の日本語データを、学習データとして利用する予定で、これは現在世界に存在する日本語をベースにした言語モデルのパラメーター量と学習量を大きく超えるものだという。パラメーター量と学習量については、今後も拡大していくそうだ。

今後は、英語にて実現している精度にも匹敵する、日本語の超巨大言語モデルを創出し、開発された超巨大言語モデルは、新しい対話AIの開発や検索サービスの品質向上など、AIテクノロジーブランド「LINE CLOVA」をはじめとするLINEのサービスに活用する他、第三者との共同開発や、APIの外部提供についても検討を行なっていくとのこと。