banner

ニュース

May 22, 2023

ロールは生成 AI を使用してドリー ショットなどを再現したいと考えています

最近まで Box で製品管理担当副社長を務めていた Fazan Buzdar 氏のことをよく知っている人は、おそらくこの起業家を、ニュース編集室 (このニュースを含む) で人気のあるデジタル ワークスペース プラットフォームである Convo と連想するでしょう。 しかし、電子工学のバックグラウンドを持つブズダール氏は、ビデオや視覚効果に長い間魅了されてきました。

「私は生涯ビデオと写真の愛好家で、何年も自分でビデオを作成してきましたが、ここ数十年間、特にビデオ編集のような時間のかかる作業において、ビデオ制作はほとんどが手作業のままであり、革新がほとんどないことに気づきました」とブズダー氏は電子メールで語った。 。 「その間、iPhone のカメラとセンサー技術がここ数年で段階的に改善され、画質が DSLR とほぼ同等になったことに気づきました。」

そこで、Box にいる間、ブズダール氏は、ビデオのキャプチャと編集のエクスペリエンスを向上させるために、人気が高まっているメディアと AI および機械学習のイノベーションを組み合わせてみることに決めたと語ります。 ブズダール氏は、サージ・カーン氏、ファハド・ヤクブ氏、同じくBox社の幹部であるミシェル・オー氏とともに、Twitter在籍中に同サイトのライブストリーミング機能を支えるインフラストラクチャに貢献したビデオエンジニアのアディール・アッバス氏を起用し、テクノロジーを活用したビデオ制作の最前線を探求した。

結果はロールです。 iOS 用の新しいアプリで、ボケ味、マルチカム ショット、モーション グラフィックス、そしておそらく私にとって最も興味深いのは、「AI でシミュレートされた」スライダー、ドリー、ジブを提供します。

画像クレジット:ロール

「私たちの使命は、高品質のビデオ制作の世界を破壊し、ビデオコンテンツ作成の新しい標準となることです」とブズダー氏は続けました。 「優れたビデオを作成するには、機材や機材、その機材の使い方の学習、編集用のソフトウェアなどへの多額の先行投資が必要ですが、私たちはそのすべてを排除します。」

Roll は「プロシューマー」市場 (インフルエンサーやポッドキャスターだけでなく、独自のマーケティング資料を作成する企業も考えてください) をターゲットとしており、Roll iPhone アプリと Web アプリの 2 つの製品で構成されています。 iPhone アプリはビデオをキャプチャして記録し、保存と処理のためにロールのクラウドに自動的にアップロードします。 一方、Web アプリでは、1 人またはコンテンツ クリエイターのチームが映像をプレビュー、アクセス、共有、ダウンロード、編集できます。

もちろん、ビデオ アプリは 10 セントほどです。 では、ロールは何が違うのでしょうか? まず、このアプリは、リモートビデオインタビュー、ビデオポッドキャスト、顧客の声など、ほとんどのカメラアプリが対象としないユースケースを対象としている、とブズダー氏は言う。 Zoom、Microsoft Teams、Google Meet はある程度のニーズを満たしているものの、これらは「高品質」のビデオ制作用に設計されていないとブズダー氏は主張します。

また、Roll は多くのリアルタイム エフェクトを採用し、(表面上は)ほとんどのビデオ キャプチャ アプリよりも幅広いポストプロダクションの選択肢を提供します。 たとえば、Roll は HEVC 標準で録画し、同じファイル サイズで約 2 倍のビットレートとより高い画質を実現します。 また、Roll は最大 2 つのカメラ ショット (広角ショットとクローズアップ ショット) を同時に記録して処理できるため、ユーザーは効果的に「マルチカメラ」視点のビデオを作成できます。

ロール編集インターフェイス。画像クレジット:ロール

確かに、マルチカムは特にユニークなわけではありません。ロールはそれを提供する最初のアプリではありません。 しかし、ブズダール氏は、魔法は後処理にあると言います。 Roll は生成 AI を活用して 3D 空間に部屋を再現し、コンテンツ作成者がビデオゲームのような仮想カメラを動かし、台車やクレーンで左右にパンするような動きをシミュレートできるようにします。

「今日、生成 AI は、何もないところから偽のコンテンツを作成することと関連付けられることが多すぎます」とブズダール氏は言います。 「それは私たちの哲学ではありません。私たちは偽のピクセル、人物、シーンを生成しません。私たちは純粋に生産性向上のためのツールとして生成 AI を使用しています。私たちはより高品質のビデオ制作へのアクセスを民主化したいのです。」

ブズダール氏は、ロールの AI は、部屋に座っている人に関係なく、データを使用して深さと形状を測定し、シーン内の 3D 深度を理解するようにトレーニングされていると説明しました。 Roll は、学界のベンチマークに一般的に使用されるオープンソース データセットを使用してアルゴリズムのトレーニングを開始しましたが、その後、22,000 を超えるビデオ通話を内部で記録し、独自の豊富なデータベースを作成しました。

結果は半分ほど悪くはありませんでした - 少なくとも Buzdar が私に見せてくれたデモ映像では。 ロールの AI 生成パンの一部は不気味の谷を切り開きます。これは、仮想カメラが回転するときに背景のオブジェクトが不自然に歪む結果です。 しかし、短いシーンでは、AI 効果は十分に説得力があり、退屈なリモート インタビューに目を引く追加物となっています。

「私たちはこれについてかなり研究しましたが、iPhoneのセンサーデータをクラウド上の大規模なAIモデルと組み合わせるという私たちと同じ方法でAIを使用している人を見たことがありません」とブズダー氏は述べた。 「当社のテクノロジーは、ユーザーが望むあらゆる視覚効果をシミュレートするための基本的な機能を提供します。」

ロールによる通話録音。画像クレジット:ロール

視覚効果は少し無理が​​あるように思えます。 しかし、Roll には他の、より現実的なアルゴリズムのトリックが用意されています。 Roll はビデオを記録するときに、録画と照明の条件、カメラから被写体までの距離、被写体の顔と体の位置などのメタデータを収集し、後のビデオ制作プロセスで使用します。 メタデータは、携帯電話のカメラとセンサーを自動的に調整するだけでなく、構成や照明に関するフィードバックや指示を提供するために使用されます。

市場にある他のいくつかの「AI 対応」モバイル ビデオ エディターと同様に、Roll もメタデータを利用して、編集クラウド内に完全に実現されたマルチカメラ リールを作成します。手動での編集は必要ありません。 (ユーザーは希望に応じて、カメラ アングルを変更および調整したり、カメラの動きや視覚効果を追加したりすることもできます。) 近い将来、Roll は適切な解像度で、TikTok、YouTube、Instagram などのソーシャル メディアに直接公開できるようになります。そしてアスペクト比。

「今日、ビデオ制作を完全に完了するには多くのハードウェアとソフトウェアが必要です」とブズダー氏は言います。 「ビデオとオーディオ ファイルが 1 つのソフトウェアから別のソフトウェアに飛び移るたびに、コンテキストが失われ、ただ渡されるだけの「ダム」ファイルになります。私たちはビデオ制作の「スタック」全体を根本的にゼロから再構築しました。従来のソフトウェアの境界を越えて、私たちは AI を適用して、リモート ビデオ制作ワークフロー全体を垂直統合して自動化する、革新的なキャプチャからパブリッシュまでのエクスペリエンスを提供しました。」

では、ロールはどのようにしてお金を稼ぐつもりなのでしょうか? 同社はこれまでのところ、伝統的なベンチャーキャピタルの資金源から資金を調達しているが、ブズダール氏は正確にどこから調達したかは明らかにしていない。 しかし、収益創出の観点から言えば、ブズダール氏は、ロールが最終的には企業組織、特にロールのサービスに何らかの手数料を支払う企業内の企業マーケティングチームやビデオチームのニーズに応えられるように成長することを期待している。

「ビデオ制作はクラウドによる破壊に向けて機が熟しています」とブズダール氏は語った。 「大きなファイル サイズ、複雑な処理、複数人による編集とレビュー サイクルの必要性などの特性により、スケーラブルなストレージ、AI、コンピューティング、リアルタイムの共有とコラボレーションなど、クラウド コンピューティングから飛躍的なメリットを得られる最適な候補となっています。」

確かにそれは真実です。 ロールが破壊者となるかどうかについては、時間が経てば分かるだろう。

画像クレジット: 画像クレジット: 画像クレジット:
共有