株式会社EmbodyMeは、「誰もがAIで目に見えるあらゆるものを自由自在に作り出す世界を作る」をビジョンに掲げ、AIによる革新的な映像生成技術を提供しています。代表取締役社長 吉田一星さんに創業の経緯と、新技術を活用したスマホアプリ「Xpression」について伺いました。

AIで映像制作の未来を変える

EmbodyMeは、「学習し模倣するAI」から「想像し創造するAI」へ進化させることをミッションとし、AIで有名人などのリアルなフェイク映像を簡単に作ることができる「Xpression」や、そのフェイク映像でオンライン会議などに出席できる「xpression camera」をリリースしています。

代表取締役社長の吉田さんは、大学在学中に経済産業省と情報処理推進機構主催の「未踏ソフトウェア事業」(ITを駆使してイノベーションを創出できる人材発掘・育成事業)に参加しました。卒業後にヤフーに就職し、コンピュータビジョン、機械学習などの研究開発に携わってきました。

また、ヤフー在籍中の2013年に、写真1枚あればその人になりきれる「怪人百面相」というアプリを開発しました。自分の顔を、有名人やキャラクターなど写真の人物の顔に置き換える技術を使い、カメラの前で表情や頭をリアルタイムで動かして変身することができるアプリです。さらに2015年には「なりきろいど」をリリースします。ユーザーの表情を読み取ったアバターが、ユーザーと同じ表情をするので、直接顔を出さずにビデオチャットやビデオ投稿ができるアプリでした。

バーチャルYouTuberが流行し、他社が同じようなアプリを発表し始めたのが2018年です。それより3年も前にこのアプリを開発していた吉田さんは、AIを用いた映像生成技術に特化したビジネスができるのではないかと考え、2016年にEmbodyMeを起業しました。

社名の「EmbodyMe」には、ボディに魂を入れると実際に形になって具現化するという意味があります。EmbodyMeが目指しているのは、誰もが家にいながら、ハイクオリティなテレビ番組や映画を、撮影せずに作ることです。編集ソフト上で、タレントの写真やバーチャルな映像を選んで、セリフをタイプして動きを指示すると、1本の映画ができてしまう。どこにいても映像制作ができる。思い描いた世界観を実現できることが最終的に目指す形です。

高解像度なビデオ画像をリアルタイムに生成

「Xpression」は、主に2つの技術から成り立っています。一つは、3D Dense Face Trackingという顔の形状をトラッキングする技術です。従来の技術は70点以下の2Dポイントを推定するにとどまっていましたが、EmbodyMeの技術は5万点以上の3Dポイントをトラッキングし、一般的なカメラがあればアンドロイド、iOS、Windowsなどどのようなマシンでもリアルタイムで動作します。もう一つはNeural Renderingという技術で、3D Dense Face Trackingの認識結果を元に現実と区別のつかないビジュアルコンテンツを生成することができます。

重要なポイントは、前処理時間が一切必要ないことです。事前に1~2日学習してモデルを生成し、さらに新しく音声をアップロードして待つとようやく映像ができるといった従来の技術とは一線を画しています。前処理は一切不要で、リアルタイムに高解像度なビデオ画像を生成できます。

この分野の研究開発は、ここ数年非常に盛り上がっています。当初はディープフェイクという言葉で話題になりましたが、最近はシンセティックメディアと呼ばれており、主に海外でいろいろなスタートアップが立ち上がっている熱い分野となっています。

https://embodyme.com/ja/

This article is a sponsored article by
''.