BIPROGYグループの総合イベント「BIPROGY FORUM 2023」において、仕事を効率的・心理的にサポートするAIを活用したサービスを、展示とセミナーで紹介しました。展示会場では「AI新時代!」をテーマに株式会社バベルの「ailead」、株式会社EmbodyMeの「xpression camera」を展示して、多くの方に実際に触れていただきました。今回はセミナーの様子をお届けします。

【登壇者】
株式会社EmbodyMe 代表取締役 吉田一星さん

セミナー「AI新時代!デジタルヒューマン活用の未来~Generative AI による新たなビジネス実装~」では、EmbodyMeの吉田一星さんが、生成AIを活用した「xpression camera(エクスプレッションカメラ)」の紹介や、生成AIが生み出す社会変革の可能性について講演しました。

「1枚の写真から動画が」生成AIの時代が到来

EmbodyMeはAIの映像生成分野の研究開発に取り組むスタートアップで、2016年の創業です。前職のヤフーで開発した「怪人百面相」は、マンガのキャラクターや有名人の顔と自分の顔写真を合成できるARアプリです。写真1枚からリアルタイムで表情を動かすことができ、2013年にリリースし、同年のグッドデザイン賞を受賞しました。

当時はスマートフォンでリアルタイムで画像を合成する技術は非常に困難で、世界で先駆けてのリリースでした。その3年後にSnapchat、Facebook、SNOWなどのアプリで同種の機能が搭載されたことで、フェイスエフェクトが広く利用されるようになりました。

2015年には、アバターアプリ「なりきろいど」をリリースしました。顔認識機能を搭載し、リアルタイムで利用者の表情をアバターに反映して通話やチャットができるアプリです。その3年後に、アバターを使って配信するバーチャルYouTuberの一大ブームが起きました。

2016年6月には、「AIを使い、目に見えるあらゆるものを自由自在に作り出す世界を築く」をビジョンに掲げEmbodyMeを創業、ディープラーニングを用いた映像生成技術の研究開発に取り組んできました。多数の特許を取得したほか世界的なトップカンファレンスで受賞するなど、この分野の先駆者としての地位を築いてきたと自負しています。

そして2023年現在、生成AIの時代が到来したと感じています。私たちが世界に先駆けて開発してきた技術・サービスに対して、まさに時代が追いついてきたという気持ちです。

ローカル&リアルタイムで動作する「xpression camera」の強み

EmbodyMeが開発した「xpression camera(エクスプレッションカメラ)」は、自分の外見をAIで置き換え、表情や体の動きをリアルタイムに反映できるアプリです。

初期設定で用意されている画像だけでなく、PCに保存されている画像の選択も可能です。例えば、自分のスーツ姿の画像を選択すれば、寝巻きの姿のままでも会議に参加できます。Zoomなどのオンライン会議アプリで利用する際は、アプリのカメラ設定画面から直接選択するだけで利用できます。ZoomだけでなくTeamsやYouTubeなどマルチプラットフォームで動作し、1枚の画像だけで映像生成が可能です。

画像: ローカル&リアルタイムで動作する「xpression camera」の強み

 

アプリで使用されている独自技術が、5万点以上の3Dのポイントを推定して詳細な表情を認識する「3D Dense Face Tracking」と、現実と区別がつかないクオリティで画像や映像を生成する「Neural Rendering」です。アプリでは3種類のAIが同時稼働し非常に複雑な処理が行われているにもかかわらず、処理時間は1フレーム当たり0.01秒、クライアント側でリアルタイムに処理できるのが特徴です。

最近、生成AIが非常に注目されたことで、国内・海外問わず多くの企業がこの領域に参入しています。競争相手が日々増加している中で、xpression cameraの競争優位性は2つあります。

まず、映像生成において他の競合企業よりも50倍以上高速で、リアルタイムに動作する点です。チャットボットやビデオチャット、ライブ配信など、ローカルPCのみの処理でリアルタイムなシーンでの動作が可能なのはEmbodyMe独自の技術です。

もう一つが、前処理時間を一切必要ないことです。例えばAI開発を手掛ける英企業Synthesiaは、撮影不要でテキストファイルの登録だけでアバターがテキストを話す動画が作成できるサービスを運営しています。初期登録されている数十種類のアバターのほか、本人の顔をアバターとして登録することも可能です。

同社技術では、本人の顔をしたアバターを動かすには本人撮影動画をアップロード後、事前に10日間の学習時間が必要といわれています。さらに新しい映像を作成するためには、サーバー側で数時間の処理が必要とされているということです。それに対してEmbodyMeの技術では、画像を登録後、即時動作します。

ディープラーニングの登場により進化した生成AI

生成AIとは、学習したデータをもとにAIが新しくテキストや画像、動画などを出力する技術です。最近になって生成AIの精度が向上したことで注目され、爆発的に広がっています。

画像: Generative AI Landscape

Generative AI Landscape

生成AIの進化には、ディープラーニング(深層学習)が大きく影響しています。もともとAIが人間と同精度の画像やテキストを生成することは非常に難しい課題でした。写真のような画像や自然な文章を生成するためには細かな要素の指定が求められるためです。

もちろんディープラーニングが登場する以前にも生成AIの研究は行われていました。画像分野では、2009年に2つの画像間の類似点を見つけ出すPatchMatch(パッチマッチ)と呼ばれるアルゴリズムが登場しています。しかし、この手法は現在生成AIで用いられているアルゴリズムとは全く異なるものでした。テキスト分野でも、チャットボットが問い合わせ対応などの用途で導入され始めましたが、AIによる生成ではなく、事前に設定したルールに沿って返答するルールベースが主流でした。

2010年代以降、ディープラーニングの登場と大量の学習データ利用により生成AIは飛躍的に精度が向上していきます。GAN(敵対的生成ネットワーク)やVAE(変分オートエンコーダ)といった生成モデルの発展とともに進化を続けましたが、2017年頃までは見た人に違和感や嫌悪感を引き起こす「不気味の谷」の領域にあり、一般的に受け入れられるまでには至りませんでした。

2017年には、生成AIの歴史を語る上で重要な分野であるディープフェイクが登場します。ディープフェイクとは、ディープラーニングを使用して動画の顔を別の顔に置き換える技術です。2017年に米ソーシャルニュースサイトのRedditで、deepfakesというユーザーにより有名女優の顔を合成したポルノ動画が投稿され話題になりました。この投稿者が使用したプログラムはオープンソースとして公開され、多くの人々がそれを利用して動画を制作しました。この現象がディープフェイクの始まりとなり、生成AIが身近になる一因にもなりました。

ディープフェイクという言葉が広がったことで、広義には生成AI全般を指すようになりました。しかしネガティブなイメージが付きまとうため、2019年頃からは生成AIによって作成されたメディア全般を指す「Synthetic Media(シンセティックメディア)」という呼称も使われています。

Generative AI により社会的にも広く注目される

2021年には、OpenAIがDALL·E(ダリ)と呼ばれる画像生成技術を発表しました。これはテキストを入力すると、その意味に合致した画像データを出力します。DALL·Eはテキストと画像の関連性を理解するのにCLIP(Contrastive Language–Image Pre-training)と呼ばれるモデルを使用し、画像を生成するのにVQ-VAE(ベクトル量子化変分オートエンコーダ)と呼ばれるモデルを使用しています。DALL·E自体は公開されませんでしたが、CLIPはオープンソースとして公開されたため、他の画像生成技術と組み合わせたAIによるアート作品が生み出され、デザイン業界などでも注目されました。

生成AIが広く注目を集めたきっかけは、2022年に公開されたStable Diffusionです。出力したい画像のイメージを単語で入力することで、合致した画像を生成できるサービスで、他社に対抗するためオープンソースとして公開されました。さらにこの流れを受け、投資会社のセコイア・キャピタルが生成AIに関する記事を発表したこともブームを後押ししました。同社の記事によって、ディープフェイクに代わりGenerative AI(生成AI)という用語が一般的になりました。

現在では、本物と区別がつかないほどのリアルな画像が生成可能です。生成AIの発展に寄与したGANやVAEなどの手法は、画像生成に限らず音声合成など他の生成タスクにも応用されています。

(後編へ続く)

画像: xpression camera www.youtube.com

xpression camera

www.youtube.com

This article is a sponsored article by
''.