PhotoRoom 社の共同創業者へのインタビュー
Matthieu Rouif 氏が、広告および再販用の写真における AI 技術の実際の活用方法と、急速に進化する分野で本当に必要なことにだけ注力し続ける方法について語ってくれました。
パリに拠点を置くスタートアップの PhotoRoom は、Midjourney や DALL·E のような画像生成ツールが注目を集める以前から、AI を活用して成功を収めていました。同社は 2020 年、元 GoPro のプロダクトマネージャーである Matthieu Rouif 氏と機械学習エンジニアの Eliot Andres 氏によって立ち上げられ、最初の製品として背景除去アプリを提供しました。この製品は、商品の画像を効率的に編集する方法を必要としていたオンライン販売業者の間で、瞬く間にヒットしました。
PhotoRoom のアプリはその後、28 の言語で導入され、ダウンロード回数は 4,000 万回を超え、ウェブおよび API の形式で複製されています。アプリは他の複数のツールと組み合わせて機能が向上していますが、そのツールの 1 つが、テキストと視覚のプロンプトからカスタム背景画像を作成する AI 駆動型の「インスタント背景」コンポーネントです。個人販売業者や小規模事業者は PhotoRoom を使用して、最近まで撮影と編集に数千ドル必要だった高品質のプロダクトアートを低額で生成できます (PhotoRoom Pro のサブスクリプションは、ユーザーあたり月額 $9.99 です)。
PhotoRoom は 2021 年から Stripe を使用しており、2022 年 11 月に新たに 1,900 万ドルの投資ラウンドを発表しました。Stripe は Rouif 氏にインタビューをし、マクドナルドへの訪問が同氏のビジネスの方向性を変えた背景、グローバルコマースのカスタマイズが進むにつれて画像のカスタマイズがますます重要になると考えている理由、さらに AI 業界が急速に加速する中でどのように集中力を維持しているかについて伺いました。
AI による写真編集が、個人の販売者にとって専用アプリやサブスクリプションサービスを必要とするほど重要なのはなぜですか?
現在、世界では何億人もの人々が商品を販売したり、企業を運営したりしています。そうした企業の買い物客がショッピングをする際に目にするのは、通常はモバイルでの画像です。E-コマースの約 72% はモバイル向けです。 実店舗で販売する企業でさえ、買い物客を引き付けるために Google マップや Instagram で画像を掲載する必要があります。
PhotoRoom が行うのは、これらの画像を美しいだけでなく、信頼を呼び起こすものに変えることです。私たちが利用者に問いかけるのは、商品がどのようなものであるかを伝え、買い物客の信頼を得るために、最高のビジュアルと最高の画像をどのように作成するかということです。
信頼と信憑性について言えば、AI 画像に対しては、洗練しすぎている、輝きすぎているという批判がよくあります。こうした批判は、貴社にとって懸念事項ですか?
数年前に売り込みのデモを行った際、PhotoRoom は「AI を上手に活用している」というフィードバックを一部のパートナーから受けたことがあります。Midjourney や DALL·E は非常に美的ですが、おっしゃるとおり、きれいすぎて本物に見えないところがあります。そのため、当社の生成 AI は商品の周辺にだけ使用し、白い背景にシンプルな影と表面への映り込みがあるだけの仕上がりです。商品のピクセルには一切手を加えません。商品の写真を撮り、背景を削除して他のピクセルを再生成しますが、商品は再生成しません。再販業者にとっては、商品の欠陥も含めてすべての品質を保持することが非常に重要です。商品以外のものを再生成してリアルに仕上げます。当社の生成 AI 活用は、必要最小限と言えるでしょう。
現在、LLM はかなりの注目を集めています。 LLM の進歩は貴社の事業に影響を及ぼしていますか?
私が非常に楽しみにしているのは、今後数カ月で動き出すと思うのですが、業界で「マルチモーダル入力」と呼ばれている技術です。当社にとってこのアイデアは、商品の写真と、見たいものを説明するテキストを入力すると、その 2 つの入力が統合された結果を得られるということです。今までのモデルはすべてシングルモーダルであり、画像入力、テキスト入力、またはテキストから画像生成のいずれかでした。ユーザーから話を聞いているときに、スマートフォンでテキストのみのプロンプトを表示するまでに時間がかかりすぎていることに気付きました。また、何もない状態から始める場合、何を書けばよいかわからないといった、空白のページに対する不安もあるようです。
PhotoRoom が独自の ML スタックを所有することが重要であるとツイートされましたね。それについて説明していただけますか?
PhotoRoom の場合は、Stable Diffusion のような基本的な生成モデルを土台に構築しますが、ユーザーからのフィードバックを使用して価値を付加します。ユーザーにとって重要なことは何か。高品質かスピードか。どのようなハードウェア加速が望まれているのか。非常に強力な機械学習チームを擁することで、エンドユーザーにとって最適な結果を得るための商品選択を行うことができます。
では、貴社の特定ユーザーが望むことで、平均的ユーザーと異なるものは何だと思いますか?
当社のユーザーが品質を求めていることは理解しています。E-コマースでの目標は、100% の品質を実現することです。たとえば、E-コマースの所有者として 1 万枚の画像を扱っている場合、1 ~ 2% エラーがあるとしたら、数百枚の写真を手動で編集しなければなりません。たとえ個々の修正が簡単なものであっても、時間と手間がかかります。したがって、完璧な結果を得るためには、1 ~ 2 秒余分に処理時間をかけ、機械学習に非常に大規模なトランスフォーマーモデルを追加する必要があります。余分な時間をかける価値は十分にあります。既製のスタックだけでは、これを行うことはできないのです
Stripe を使い始めたきっかけは何ですか?
まず、モバイルアプリから始め、App Store と Play Store を通じて課金していました。しかし、誰もが気軽に使用できるように、モバイルとウェブの両方でサービスを提供したいという希望があり、それを実現するには Stripe が最適なソリューションでした。信頼性があり、開発者はとても簡単に設定することができます。 Stripe Tax も、Stripe の使用を選択する際の大きな決め手となりました。当社は世界規模で販売しており、各国の状況を把握する必要があるからです。そして何よりも、顧客との関係に責任を持つという考え方が気に入りました。
将来は大手企業とのビジネスを検討されていますか?
実際、Stripe を選んだ理由の 1 つは、API に移行したかったからです。昨年 11 月に背景除去 API を発売しました。そして現在、この API に当社のアプリに備わっているのと同じ生成 AI が含まれるようになったことから、プロセスの自動化を希望する大手の E-コマースサイトやマーケットプレイスと話を始めています。
PhotoRoom が他社と異なるのは、当社のユーザーである非常に多くの製作者からのフィードバックを元にアルゴリズムの品質を向上させ、大企業が求めるレベルの品質を実現できるという点です。当社のモバイルアプリを利用する数千万のユーザーのおかげで、新技術をテストしてフィードバックを取得し、さらに大規模な E-コマースマーケットプレイス向けに品質を向上させることができるのです。
多くの AI スタートアップは、自社の製品が私たちの生活の最も基本的な部分を変えることができると信じています。 PhotoRoom にはそのような野心がありますか?
当社は E-コマースに必要なあらゆるビジュアルを支援したいと考えており、事業者としてペルソナごとに異なるビジュアルを作成できる E-コマースの方向に向かっています。たとえば、家具を販売している場合、同じ商品を現代的なデザインのセットアップで示すこともできますし、居心地の良いリビングルームを作成してもよいでしょう。また、ユーザーごとに異なるビジュアル、さらに時間帯によって異なるビジュアルを表示することもできます。そこで、たとえば画像やビジュアルの A / B テストについて考えてみたいと思います。顧客ごとにどの画像が最も売れるかを伝え、それを作成するお手伝いをしたいと考えています。
あなたは、おそらくこれまでで最も刺激的で激変しているテクノロジー革命の真っ只中にいるでしょう。グローバルビジネスで AI の採用が進んでいることを考えると、起業家として、超高速でスケーリングするものを構築するのはどのような感じですか?
クリスマスを迎える 5 歳児のような気分です。どのプレゼントを最初に開けたらよいかわかりません。このような状況では、気が散りやすく、毎週さまざまなものを新たに構築したくなります。しかし、私たちは幸いにも、共同創業者である Eliot のおかげで、意識を集中させることができています。商業写真に焦点を当て、四半期ごとにリストを管理し、その期間中に作成の対象からはずすものを明確にしています。AI アバターなど一部の機会を逃す可能性はありますが、そちらに乗り出しても当社の使命を果たすことはできないでしょう。生成 AI の狂騒にも巻き込まれずに済みました。
私のテクノロジー業界でのキャリアは、前回の革命、すなわちモバイル革命の最中にスタートしました。スタンフォード大学での最初の iOS クラスに出席し、2009 年にスマートフォンからポストカードを送信する最初のアプリの作成を手伝いました。人々は休暇の写真を互いに送りたいと考えていましたが、スマートフォンからポストカード送信は失敗でした。Instagram は成功でした。その経験から私が得た最大の教訓は、新しい技術で古いものを作るのではなく、新しい技術で新しいものを作ることの重要性です。