XRプロジェクトは株式会社ZOZO NEXTと、アメリカを拠点とするPinscreen(ピンスクリーン)のコラボレーションプロジェクトである。約2年前からアバター作成アルゴリズムの開発を進めており、2021年にはProject Dripを開始している。今回当プロジェクトの一環として2022年3月13日から米テキサス州で行われたSXSW(サウス・バイ・サウスウエスト)へ出展し、ユーザーの顔写真を元に、Pinscreen社が開発したアルゴリズムが、わずか1分程度でデジタルツインを自動作成する技術を発表している。また、身長と体重を入力するとそのデータを元に体が生成され、よりリアルなアバターの作成ができるというプロトタイプ作品を披露した。今回、プロジェクトチームにその開発ストーリーと、その背景についてインタビューを行った。(2022年3月1日収録)
ハオ・リーは、最先端のAIドリブンのバーチャルアバターテクノロジーを構築するスタートアップ、PinscreenのCEO兼共同創設者であり、カリフォルニア大学バークレー校のコンピュータビジョングループの特別研究員。ETH Zurichで博士号、Karlsruhe大学で修士号を取得。前職では、南カリフォルニア大学コンピューターサイエンス准教授、USC Institute for Creative TechnologiesのVision and Graphics Labのディレクターを務めた。ハオのコンピュータグラフィックスとコンピュータビジョンの研究は、没入型コミュニケーション、仮想世界でのテレプレゼンス、エンターテインメントのために人間をデジタル化し、そのパフォーマンスをキャプチャすることに重点を置いている。過去にはWeta Digitalの客員教授、Industrial Light & Magic / Lucasfilmの研究リーダー、コロンビア大学とプリンストン大学の博士研究員などを歴任。2013年にはMITテクノロジーレビューの35歳以下のトップイノベーターに選出され、Google Faculty Award、大川財団研究助成金も受賞している。2018年にはOffice of Naval Research Young Investigator Awardを受賞、2019年にDARPA ISAT Study Groupへの指名など。2020年、ACM SIGGRAPH Real-Time Live! "Best in Show "賞を受賞。
ジャック・ハワードは、VRやAR体験のアートディレクター、クリエイティブテクノロジスト。ロンドンを拠点に撮影監督およびシニアVFXアーティストとしてキャリアをスタート。これまでGoogle、Sky、国連などのクライアントのために様々な国で実写ドキュメンタリーやショートフィルムに取り組んだ背景を持つ。以降、現職。
株式会社ZOZOテクノロジーズ所属の3Dスペシャリスト。ITメガベンチャーでゲーム関連の映像制作や3DCGに携わったのち、2020年にZOZOテクノロジーズに入社。以降、XR/AIチーム内でバーチャルヒューマン/ファッション領域のプロジェクトを主軸に活動を展開。その一方で、CG制作も行い、HoudiniやUnreal EngineなどのCGツールにも長けている。
私たちが発表したデモ内で参加者は、自分のバーチャル・アバターを瞬時に作成することが可能になります。そのステップは、まず、ユーザーが自分の顔写真を撮影し、その写真をもとに、自分そっくりのバーチャルアバターの顔が自動的に生成されます。その後、身長、体重、ポーズ、背景などを指定し、スクリーンショットを保存することで、その画像を自分のSNSで共有することができるといった仕組みです。
私たちが目指しているのは、E-ShoppingやE-commerceに楽しさを追加することであり、今回の展示においてもユーザーエクスペリエンスの観点から、人々に楽しんでもらうことが重要でした。もちろんクオリティは私たちにとって一番の優先事項であり、利用されている技術も最先端であることから、とても興味深いプロジェクトだといえます。
私が個人的にこのプロジェクトがエキサイティングだと思う理由は、私たちのソリューションを用いることで人々が3次元の自分を作ることができ、好きな服を着用できることにあります。私にとってこのプロジェクトはZOZO NEXTが作る未来を垣間見ることができるものであり、それはあらゆるものがバーチャルになる能力を伴った未来だと思います。従来、人々は店舗で衣服を購入していますが、ZOZOは実店舗をもたないオンラインショップとの数少ない成功事例だと思います。そして次世代の購買体験はオンラインショップで画像を閲覧するだけではなく、ユーザーが着替えをしなくとも自分の試着姿を見ることができるものだと私は考えています。
ですから、私たちのチームのビジョンは、「将来私たちはどのように買い物をするのか」です。つまり家で座っているだけで、自分の写真を撮影し、クリックだけで着たい服を着て、好きなポーズをとって、違う場所で、自分がどう見えるのかを試すことができることだと思うのです。今回の展示の目的はこれを実現するための技術を構築していることを見せることにあると思います。ジャックも言っていたように、これはとても楽しいものです。楽しくなければ人々は使いませんからね。さらにとても身近で、簡単に使えて、「こんなアプリがあったらいいな」、「ショッピング体験がこのようになったらどうかな」、「ウェブサイトにアクセスして服を実際に着ることがなく試着姿を教えてくれたらどうだろう」と思ってもらえるようなものを作ることが重要だと考えています。
デモはUnreal Engineでほとんどのものが作られています。
技術的な側面ではいくつかの新しいことがあります。ひとつめは、Pinscreenで開発した最先端のアバター作成技術があります。これは写真を撮るとその写真からアバターが作成されるもので、3Dスキャンのプロセスを必要としません。文字通り写真を撮るだけです。SXSWの展示ではこの技術のデモンストレーションとして、参加者が写真を撮影すると、その約1-2分後に自動的にアバターが作成されるという仕組みを発表しました。ふたつめとしては、身長と体重を指定できることです。これには、その人物から最も妥当な体型を生成する機械学習ソリューションが用いられています。
また、非常に新しくこのプロジェクトにとって、とてもユニークなことは、任意の体形に服を着せることのできる技術だといえます。従来このプロセスは、ゲームスタジオや制作チームによって行われてきた作業、つまり、3Dの服を作成して、アバターに着せる3Dアーティストが必要とされてきたことです。しかし、私たちのプロジェクトでは、非常に高度なアルゴリズムとジオメトリ処理技術を用いることによって、体型によって服がどう見えるのかの予測ができるようになりました。
現在バーチャル試着ツールの技術は多く存在しますが、私たちの技術がユニークな点はその全体像にあると考えています。つまり、私たちはリアルタイムレンダリングのための最先端の技術をたくさん組み合わせることで、よりリアルな表現をしているのです。たとえばUnreal Engine上では、特殊なシェーダーやマテリアル、レンダリング技術を用いて、よりリアルな表現ができるよう開発しました。
そもそもこの技術の開発を始めたきっかけは、ZOZO NEXTのバーチャルモデルであるDripをどう作るか、という課題から始まったことに遡ります。そしてその時すでに、「他と同じことをするのではなく、ビデオゲームによく使われるリアルタイムなものを使おう」と考えていました。リアルタイム技術を使う理由は、スケーラビリティが可能であることを示したいという思いであり、近い将来ではなく、長期的な視点で、どのようにすればスケールアップが可能で、品質もよりフォトリアルなものとしてできるのか考えているのです。ですから、今回のデモは、これらの考えにおいて、非常に重要な実験だとも言えますね。
ハオが言ったようにこのプロジェクトはバーチャルインフルエンサーを作るという目的で開始しました。既存のバーチャルインフルエンサーと呼ばれる人たちは、基本的に写真を撮って顔を入れ替えて作成されています。しかし私たちの行っていることは、映像の中に見えるものはすべてCGであるという違いがあります。アバターも、服も、顔も、全てCGなのです。ハオが言ったように、スケーラブルなソリューションを構築することが私たちにとってとても重要であり、今回のデモでは、とくに映画のようなフォトリアルな品質を実現することに重点を置いていました。たとえばチームにライティング・アーティストを呼び、空間のライティングや環境の開発とその調整を行ってもらいました。これによってさらにエッジを効かせた表現ができました。
そうですね、今回発表するデモは、私たちのバーチャルコンテンツ作成のためのスケーラブルなソリューションに関連していると思います。ハオとジャックが言ったように、私たちの開発における焦点は、低コストで超高速のプロセスでバーチャルコンテンツを作ることです。現在、バーチャルヒューマンを作るCGスタジオはたくさんありますが 、その多くはすべてを手作業で行うことで、多くの時間と高額な費用がかかっています。さらに、そのようなバーチャルコンテンツを作れるCGアーティストは、とても少ないという現状もあります。ですから、今回のデモでは、3Dアーティストがいなくても、誰もがバーチャルコンテンツを作れることを示したいと考えています。
今日の参加メンバーで見てみると、ジャックは、人間と機械の間の体験全体を再編成しているような立ち位置で、雄大は、人々のニーズは何か、長期的なビジョンはなにか、ファッションテックの未来はどうあるべきか、などの側面で私たちをガイドしてくれる立ち位置です。そして私たちPinscreen側では、技術的に単なるソリューションとしてでは無く、何が可能なのか考えています。ですからこのデモは単なるひとつの製品ではなく、私たちが達成しようとしている大きな長期的な目標の副産物であるのです。
2〜3年前にZOZO NEXTチームに初めて会ったときに、私は「あなたたちが解決しようとしている課題は何ですか」と尋ねました。そして、その時彼らは、「私たちは物理的な小売店を持っていない。オンラインで今よりも便利に、そして楽しい買い物体験を実現するにはどうすればいいか」と応えました。これは、「さあ、アプリを作ろう 」と言って実現するようなものではありませんでした。当時はまだ技術自体が存在していなかったため、時間をかけて構築する必要がありました。また、たとえ技術があったとしても、人々がそれをどのように使うのかについてもまだわからないことが多くありました。ですから、私たちが今行っていることは、ある意味、そのような製品をどうやって作るかを考えるための最も効果的な方法を実現することだと言えるでしょう。
Pinscreenが技術の専門家であり、ZOZO NEXTがユーザーエクスペリエンスの専門家であることから、開発はPinscreenのチームによって行われ、ZOZO NEXTサイドではUI/UXと各アセットの仕様の作成を行いました。よりよい技術とUXの組み合わせが今回の開発において鍵になっていると思います。
開発という観点では、ZOZO NEXTと相乗効果の高いコラボレーションができたと思います。Pinscreenが他の開発会社と異なる点は、研究の要素が非常に強いという点にあります。たとえば、まだ世の中にない技術を作る場合、「それは可能なのか」「どうすればいいのか」を見極める力があります。さらにそのようなことに挑戦もしています。面白いのは、新しい技術の多くは、目標を設定しても、それをどう解決するかは必ずしも明確ではなく、複数の選択肢があることです。その一方で、ZOZO NEXTとのプロジェクトでは、問題を解決するための新しいアイデアがたくさん出てくるのです。ですから、「ピンスクリーンを雇ったのは、君たちにこれをしてほしいからだ」というようなことは全くなく、ある意味、ひとつ屋根の下にいるような心持ちです。 ひとつ屋根の下にいるような感覚があると、「あれをやってあげなきゃ」ではなく、「これを成功させよう」という同じ目的、同じ目標があるように感じられます。このような関係性は長期的な取り組みによるものだと思っています。
今回の取り組みは本当に面白いパートナーシップであり、お互いの長所などを学んできました。たとえば私は技術的なことには詳しくないのですが、「こんなことは実現できないか」と意見を伝えることがあります。するとPinscreenは少しの間考えて、「ああ、できるよ!」と言うのです。誰かが「ああ、これはできる」と声をかけてくれるのはとても良い環境だと思っています。
デモでは、ユーザーが作成したアバターをSNSで共有できるようになっているので、多くの人にシェアしてもらいたいと思っています。
また、ユーザーからの正直な感想ももらいたいなと思っています。どこが気に入った/気に入らなかったのか、どこがつまらなかったのか、もっとたくさん/少ない/クレイジーな服が欲しいのか、宇宙環境のような環境が望ましいのか、公園のほうが良いのか、なども含まれます。このようなフェスティバルには老若男女、様々な背景を持つ多様な人々が集まるので、試運転としては良い機会だと思っています。そしてこれらのフィードバックをもとに今後も開発を進めていきたいと考えています。
そうですね、理想としては何も気にせずに、訪れた人たちが「これはすごい」と感じてくれることだと思っています。特に今のコロナウィルス流行禍では、なかなか人と顔を合わせる機会もありませんし、新しい人と出会う機会もありません。特にロックダウンの状態では、全てのことをインターネットを通じてしかわからない状況でした。ですから、このようなイベントがあることで、私たちが実際に人々と交流して、ジャックが言ったように、正直なフィードバックをいただいたり、実際に人々が私たちの製品を見て、それを使って遊んでいる様子を確認することができるはずです。もしかしたら、人々は髪型が異なっていたらどうか、特定のタイプの服装でアバターを見てみたい、など私たちが思っているのと違う感心があるかもしれません。
ほかにも文化的背景や年齢層は重要になると考えています。もしかしたらミレニアム世代が本当に望むテクノロジーかも知れないし、異なる世代や文化にフィットするかもしれない。ですから私たちは様々な機能をわかりやすく展示したいと考えています。きっとみなさんから得られるフィードバックは面白く新しいものになるはずであり、ポジティブなものも得られると考えています。
私たちにとってスケーラビリティは最も重要なことです。そしてバーチャルコンテンツの制作の自動化は、私たちのプロダクトを多くの人に使ってもらうための重要な点でもあります。他にも実際にサービスを利用してもらうためにサービスそのものを作っていきたいと考えています。
一般的に聞こえるかもしれませんが、私が確信しているのは、すべてがバーチャルになり、服もまた同様に、写真だけではなく3Dアセットでなければならないということです。その一方で服をとりまく応用事例も増えています。メタバースへの関心も高く、アバターになりたい、ゲームの世界に自分自身を入れたい、NFTで服を売りたいなど様々なニーズもあります。今後数年の間に何がどのように発展していくのかはまだ誰にもわかりません。ただひとつ確かなことは、物理的なものだけでなく、バーチャルな衣服が存在するようになることです。また、物理的なものを作るにしても、人々はデジタルのアセットを持つことになるでしょう。ファッションの目的は、よりよく見えること、トレンディに見えることですが、これをどうやって最適化していけばよいのでしょうか。
最適化する唯一の方法は、自分がどのようにみえるのかをシミュレートすることです。そしてシミュレーションには3Dの服が必要になります。先ほども申した通り、従来これらのものは3Dアーティストやゲーム制作スタジオが作成する必要がありました。しかし、私たちはそれを解決するためのキラーアプリケーションを探索すると同時に、どのようなアプリになるかにかかわらず、服をデジタル化し、それを着用する人間をデジタル化するための全AIを構築しようとしています。人々はアバターに関心がないかもしれませんが、服には絶対に必要なのです。もし、最新の服を掲載したウェブサイトを閲覧したとして、写真を見るだけでなく、購入したい製品があらゆる角度からどう見えるか、自分にどう見えるか、他のモデルにどう見えるかを確認したいと思うでしょう。そのようなコンテンツを生成するにはデータが必要となります。そして、最終的に私たちがしようとしているのは、このデータを標準化し、これらすべての機能をサポートするプラットフォーム全体を構築することにあります。私たちのロードマップは特定のアプリケーションに焦点を当てていますが、実際にはこうした技術的なバックボーンが確実に必要とされているため、私たちのアプローチは賢明だと言えるでしょう。
それがメタバースのどういった形であれ、技術こそが鍵だということですね。
注:SXSWで実際にオーディエンスが作成したバーチャルヒューマンの画像はInstagram上で「#ZOZOSXSW」によって閲覧することができる。
text by Hanako Hirata