9月28日開催の「BIPROGY FORUM 2023 九州」の特別講演として、福岡市内で行われたパネルディスカッション「生成AI時代の企業戦略~最新AIが変えるビジネスの未来~」に株式会社EmbodyMe代表取締役社長の吉田一星さんが登壇し、株式会社Fusic取締役副社長の浜崎陽一郎さんやBIPROGYのAIフロントランナーたちと生成AI時代のビジネス戦略について議論しました。
吉田さんは「チャットボットは『デジタルヒューマン』に進化する」という未来像を示し、インフルエンサーから店員まであらゆる職種が映像生成AIに代替されると予測しました。
【パネラー】
株式会社EmbodyMe代表取締役社長 吉田一星さん
株式会社Fusic取締役副社長 浜崎陽一郎さん
BIPROGY株式会社プラットフォームサービス本部AI/IoT技術部長 脇森浩志さん
BIPROGY株式会社プロダクトサービス第二本部上席スペシャリスト 武井宏将さん
【モデレーター】
BIPROGY株式会社CTO/総合技術研究所長 香林愛子さん
チャットボットは「デジタルヒューマン」に進化する
映像生成AIを10年以上研究し、2016年にEmbodyMeを設立した吉田さんは、「映像生成AIが社会を変えると見越して会社を設立しました。アプリケーションやファインチューニングを行っている会社とは異なり、映像生成AIの基盤モデルを開発している点でOpenAIやGoogleに匹敵します」と話し、AIで映像をリアルタイムに生成するアプリ「xpression camera」などのプロダクトを含む技術は、映像生成AIの基盤モデルを長年研究開発してきた同社ならではのものであることを強調しました。
「xpression camera」を用いれば、PCのカメラに映る吉田さんの表情と同じ動きを、イーロン・マスクなどの有名人の画像がリアルタイムで忠実に再現し、滑らかに動く映像を生成します。同社が「Image to Video」と名付けた技術により、例えばグーグル検索結果からわずか1枚の画像でリアルタイムな映像を生成でき、Zoomなどのオンライン会議でも、パジャマ姿でも自分のスーツ姿の画像1枚があれば参加できるという利用例を紹介しました。この技術はMidjourneyなど既存の画像生成AIによる画像を映像化することもできるもので、吉田さんは「画像よりも映像のほうがマーケットがだんぜん大きく、大きなチャンスだと考えています」と話しました。
また「Text to Video」という技術も紹介しました。ChatGPTと組み合わせれば、例えば好きな芸能人と映像付きで会話ができる技術であり、会場では福沢諭吉が自然で滑らかな表情で吉田さんと会話する実演が行われました。「エンターテイメント市場はもちろんですが、ビジネスシーンで活用されていくことがわれわれのミッション」と述べました。
モデレーターから生成AIがもたらす変化について質問されると、吉田さんは「ChatGPTのようなチャットボットは『デジタルヒューマン』に変わらなければならない」として、「対話が中心である以上、テキストだけでなく音声や動きなども組み合わせなければなりません」と説きました。また、芸能人、インフルエンサー、店員などがデジタルヒューマンに置き換わるという予測をしました。一方の柱である画像生成AIも映像生成AIに変わっていくとして、「現実的なシーンにおいてリアルタイムで映像生成ができるのは世界で当社しかない」と力強く語りました。
人間は生のデータをAIに提供する存在に?
将来の世界について、「Facebookなどのプラットフォームに人が集まっていく時代から、デジタルヒューマンにユーザーが集まっていく時代に変わると思います」と述べました。
最後に、モデレーターからコメントを求められた吉田さんは「長いスパンで見ると、人間がAIに取って代わられる可能性があります。その際、生のデータを生成することが人間の最後に残る価値になるのかもしれません。AIによる生成データが爆発的に蓄積し、それをAIが繰り返し生成する場合、AIの精度は確実に低下するでしょう。『生のデータをAIに提供する』のが人間の最後の役割かもしれません」という大胆な予測も述べました。
同時に「ポジティブに考えると、人間同士のコミュニケーションがより貴重になっていくでしょう。生成AIと人間について考える初期の段階に来ているのではないか」と締めくくりました。
知的情報の中抜きが起こる
Fusic副社長の浜崎陽一郎さんは、プロサッカーチームと提携し、ピッチの横から撮った映像を真上から撮ったかのように生成し、ピッチ上の選手の動きを真上から把握する技術を紹介しました。「生成AIが登場する前は、AIは人間の目の代わりであり、この場合は監督の目がAIであると考え、こういった展開をしたのが当社のAI技術の出発点でした」と述べました。その上で、自動音声認識(ASR)、ボイス・コンバージョン(VC)、Text to Speech(TTS)の技術を使えば、日本語のテキストを自分の声で英語にアウトプットできることを実演し、「これからは人間よりも機械との対話が増えるでしょう」と話しました。
生成AIによる変化についてのモデレーターの質問に対しては、「『知的情報の中抜き』が起こる」と答え、一次情報の発信と意思決定の2つに集約され、情報伝達だけの役割はChatGPTなどに取って代わる可能性があると示しました。
過去4万2千年間で12エクサバイトのデータを蓄積していた人類は、2020年には1年間で100万エクサバイトを蓄積するようになりました。浜崎さんは「この事実をしっかりと理解する必要があります。データを探す時代から選択する時代になっています。膨大なデータがある中、検索するだけでは足りず、生成AIを使って選択する時代であるという危機感を持たなければなりません」と語りました。
生成AIと人間の関係を考えるきっかけに
BIPROGYからは、脇森浩志さんと武井宏将さんが参加しました。同社では、事務所や工場の太陽光パネルやEVの電力予測を行い、それに基づいて機器を制御したり、スマートデバイスを使用して牛の体重や体長を測定しています。また、バスやトラックのドライブレコーダーのカメラで歩行者の位置や方向、速度をリアルタイムに把握し、安全運転をサポートしたり、橋梁の劣化箇所を検査するなど、さまざまなAIソリューションを各業界に提供しています。
特に生成AIについては、LLM(大規模言語モデル)を使った銀行の窓口対応のサポート、各企業の法令法規のチェック、ドキュメントの生成支援など、多岐にわたる相談に応じています。武井さんは「システム会社であるわれわれと、お客様の業界の課題に対する知見を組み合わせれば、新たな価値を生み出すことができます」と話しました。
脇森さんは「生成AIはこれからも進歩し続け、われわれの社会に溶け込んでいくでしょう。今後はAIが新しい能力を獲得するということもアカデミックの世界で証明されています」と話しました。そして「生成AIによって人間とシステムの関係は大きく変わりますが、この変化を恐れるのではなく、トライアル&エラーで自社の適応の仕方を模索し、一緒に新しい未来を切り開いていきましょう」と参加者に呼びかけました。
今回のディスカッションでは、映像生成や音声生成の、速度最先端AI技術が紹介されるとともに、生成AIをどう有意義に活用し、自社のビジネスや業務改善に役立てていくか活発な議論が行われました。
またEmbodyMeの吉田さんが指摘するように、セキュアな運用も含めて生成AIと人間の関係について考える契機となったのは間違いないでしょう。