生成AI(Generative AI)はディープラーニングの登場で大きな進化を遂げました。特にチャットボットは生成AIにより大きく変わると予測されており、本物の人間と変わらないようなデジタルヒューマンとしての活躍が期待されています。
【登壇者】
株式会社EmbodyMe 代表取締役 吉田一星さん
セッション後半では、EmbodyMeの吉田一星さんが、テキスト生成分野において大きな役割を果たした大規模言語モデル(LLM)の説明のほか、生成AIがもたらす社会変化について取り上げます。
テキスト生成AIを進化させた大規模言語モデル
テキスト生成AIで重要なLLM(Large Language Models:大規模言語モデル)について説明します。言語モデルとは、ある単語に続く単語の出現確率を計算するモデルのことで、大量のテキストデータを使用して学習した言語モデルがLLMです。OpenAIが開発したGPTが代表例で、人間のような文章生成や質疑応答ができます。
LLMは膨大な量のテキストデータを学習し、単語の確率を計算して次の単語を予測することによって、文章の生成や応答の生成を行います。例えば、「おまえはもう」というフレーズが与えられた場合、より高い確率で「死んでいる」という単語が予測されると考えるとイメージしやすいでしょう。質問に対しても同様で、「日本で一番高い山は何ですか」という質問が与えられた場合、「富士山」という単語が最も高い確率で出力されるような仕組みです。
LLMは言語処理において大きな転換点をもたらしました。従来の手法では、テキスト要約を行う目的には要約モデル、翻訳には翻訳モデルというように、特定の処理に対して専用のモデルを作成し、学習する必要がありました。しかしLLMでは、巨大な一つのモデルで複数の処理タスクを解くことができます。さらにプロンプトに追加情報を与えるだけで、特定の業種・業界における要件を満たすことができます。LLMを利用することで、AIモデル開発にかかる費用や労力を大幅に削減できるようになりました。
基になっているのは2017年に登場したTransformerと呼ばれるモデルです。このモデルは、学習データの量の増大に伴い性能が向上する特徴を持っており、年々規模が増大しています。例えば初代のGPTと最新のGPT-4とでは、学習するパラメータ数に百万倍もの差があるともいわれています。この差が性能に与える影響を考えると、GPTモデルの精度がどれほど向上しているかがわかります。
さらにLLMは、モデルの規模が一定以上の段階を超えると急激に精度が向上することが指摘されています。このような飛躍的な性能向上は、従来では解決困難だった課題を突破する可能性を秘めています。
LLMを活用したチャットボットは、2022年にOpenAIがGPT-3を改良したChatGPTを公開したことで火が付きました。専門知識がない人でも簡単に期待する出力結果が得られるようになり、ビジネスをはじめさまざまな分野での応用が期待されています。
将来は「デジタルヒューマン」が活躍する時代へ
現在、生成AIの革新を主導しているのがChatGPTに代表される対話形式のチャットボットです。またもう一つがStable Diffusion(ステーブル・ディフュージョン)やMidjourney(ミッドジャーニー)に代表される画像生成分野です。これらの技術が今後どのように変化していくのかを見ていきます。
まずチャットボットの分野では、将来的にはAIで生成されたバーチャルなインフルエンサーや、本人と区別がつかない本物の人間と変わらないようなデジタルヒューマンが、さまざまな場面で活躍することが予想されます。
テレビやYouTubeでバーチャルインフルエンサーが人間と共演して情報を発信したり、デジタルヒューマンが人間の代わりに接客対応したりする未来が考えられます。また自分専用としてドラえもんのようなAIが日々の生活をサポートしてくれる未来もあり得るでしょう。
例えば、ECサイトではデジタルヒューマンとの会話を通じて、顧客が欲しい商品や希望する条件などを尋ねながらショッピングをすることができます。また問い合わせ対応においてもオペレーターの代わりにデジタルヒューマンが顧客の質問に対して適切な対応を行うことが可能です。これにより、よりスムーズな接客や効率的なサービス提供が実現できます。
画像生成分野では、将来的には映画やテレビ番組など、あらゆる映像がAIによって制作されることが予想されます。
「デジタルヒューマン」が社会を変革していく
今後、ChatGPTに代表されるチャットボットがデジタルヒューマンに進化するためには、チャットボットのテキストをリアルタイムでビデオに変換して、そのままデジタルヒューマンの動きを生成する必要があります。
EmbodyMeは、「3D Dense Face Tracking」と「Neural Rendering」という2つの独自のコア技術を元に、リアルタイムでテキストからビデオへ変換するText to Video技術を実現していて、今後この分野を主導していきたいと考えています。