Entretien avec le cofondateur de PhotoRoom
Matthieu Rouif passe en revue les applications pratiques de l'IA dans le domaine de la photographie commerciale, et explique comment maintenir le cap dans un secteur en pleine accélération.
Avant même que les générateurs d'images comme Midjourney et DALL·E ne fassent les gros titres, la start-up parisienne PhotoRoom était déjà devenue un exemple de réussite de l'IA. Lancée en 2020 par Matthieu Rouif, ancien responsable produit chez GoPro, et Eliot Andres, ingénieur en machine learning, l'entreprise proposait initialement une application de suppression d'arrière-plan. Le succès a été immédiat auprès des marchands en ligne à la recherche d'un moyen efficace de retoucher les images de leurs produits.
L'application a depuis été traduite dans 28 langues, téléchargée plus de 40 millions de fois et déclinée sous forme de site Web et d'API. Elle s'est enrichie de nouveaux outils, notamment une fonction « d'arrière-plan instantané » basée sur l'IA permettant de créer un arrière-plan sur mesure à partir de commandes textuelles ou visuelles. Les marchands et petites entreprises qui utilisent PhotoRoom peuvent ainsi générer des images de produits de grande qualité qui, jusqu'il y a peu, auraient coûté des milliers de dollars en prises de vue et retouche. (L'abonnement mensuel à PhotoRoom Pro coûte 9,99 $ par utilisateur.)
PhotoRoom fait appel à Stripe depuis 2021 et a annoncé une nouvelle levée de fonds de 19 millions de dollars en novembre 2022. Stripe a pu s'entretenir avec Matthieu Rouif sur de nombreux sujets, notamment comment une sortie chez McDonald's a changé le parcours de son entreprise, pourquoi il estime que la personnalisation des images sera de plus en plus importante à mesure que le commerce mondial devient de plus en plus personnalisé et comment il garde le cap malgré l'accélération toujours plus forte du secteur de l'IA.
Pourquoi la retouche photo par IA est-elle si importante pour les marchands qu'ils n'hésitent pas à acheter une application ou à souscrire un abonnement dédié ?
Des centaines de millions de personnes dans le monde vendent des produits ou dirigent leur propre entreprise, et ce que leurs clients voient lorsqu'ils font leurs achats, c'est généralement une image, le plus souvent sur un appareil mobile. Autour de 72 % des transactions d'e-commerce ont lieu sur des appareils mobiles. Même les entreprises disposant d'établissements physiques ont besoin de publier des images sur Google Maps ou Instagram pour attirer des clients.
PhotoRoom magnifie ces images, mais fait aussi en sorte qu'elles inspirent confiance. C'est à partir de cette question que nous travaillons : comment créer des visuels et des images qui représentent au mieux le produit et inspirent confiance aux clients ?
Puisque vous abordez la question de la confiance et de l'authenticité, l'IA reste fréquemment critiquée pour son aspect trop lisse et propre. Cela vous inquiète ?
Lorsque nous avons fait une démonstration à nos partenaires il y a quelques années, certains nous ont expliqué que PhotoRoom proposait une « IA utile ». Midjourney et DALL·E génèrent des images très esthétiques, mais qui paraissent un peu trop belles pour être vraies. Notre IA générative part du produit, par exemple sur un fond blanc avec une ombre simple et une réflexion sur une surface, mais ne touche pas le moindre pixel du produit en lui-même. Nous nous contentons de supprimer l'arrière-plan et de récréer des pixels non liés au produit. Il est très important pour les marchands de préserver l'intégralité des qualités et défauts du produit. Nous recréons seulement son environnement pour le rendre réaliste. Je pense que nous pouvons parler d'IA générative minimaliste.
Les grands modèles de langage (LLM) font beaucoup parler d'eux en ce moment. Est-ce qu'ils vont avoir un impact sur vos produits ?
Ce qui m'intéresse vraiment, et ce qui devrait, selon moi, évoluer dans les mois à venir, est ce que le secteur appelle l'IA multimodale. L'idée étant qu'à partir d'une photo d'un produit et d'un texte, nous pouvons vous fournir un résultat qui fusionne ces deux types informations. Jusqu'à présent, tous les modèles ne présentaient qu'une seule modalité : une image, du texte ou du texte converti en image. En m'entretenant avec des utilisateurs, j'ai compris que créer des invites textuelles sur un téléphone portable prenait trop de temps et entraînait une espèce de syndrome de la page blanche.
Vous avez mentionné sur Twitter qu'il était important pour PhotoRoom de disposer de ses propres outils de machine learning. Pouvez-vous nous en dire plus ?
PhotoRoom s'appuie sur des modèles de génération de base comme Stable Diffusion en les enrichissant à l'aide des retours de ses utilisateurs. Qu'est-ce qui est important pour eux ? La qualité ou la vitesse ? De quelle accélération matérielle avons-nous besoin ? Avec une solide équipe de machine learning en interne, nous pouvons faire des choix et optimiser le résultat obtenu par nos utilisateurs finaux.
Qu'est-ce que vos utilisateurs attendent de plus que des internautes lambdas ?
Nous savons que la qualité prime pour nos utilisateurs. En matière d'e-commerce, l'objectif est d'éviter la moindre erreur. Si vous générez environ 10 000 images pour votre marque, un taux d'erreur de 1 ou 2 % représente des centaines de photos que vous devez retoucher manuellement, même légèrement. Nous estimons donc qu'il est intéressant d'obtenir un résultat parfait en ajoutant de très grands modèles de transformer au machine learning au prix d'un allongement de la durée de traitement d'une ou de deux secondes. C'est quelque chose qu'il est impossible de faire en partant de produits qui n'ont pas été développés sur mesure.
Comment en êtes-vous venu à travailler avec Stripe ?
Nous avons commencé avec des applications mobiles et gérions la facturation par le biais de l'App Store et du Play Store. Mais nous voulions être partout, à la fois sur les appareils mobiles et sur le Web, et Stripe était la meilleure solution pour nous. C'est un nom qui inspire confiance et une solution très facile à configurer. Stripe Tax nous a aussi confortés dans notre choix, car nous vendons nos produits dans le monde entier et nous avons besoin de pouvoir analyser notre activité dans chaque pays. Et puis, nous tenions à garder la main sur notre relation avec notre clientèle.
Pensez-vous vous collaborer avec de grands comptes à l'avenir ?
L'une des raisons pour lesquelles nous avons choisi Stripe est que nous voulions utiliser une API. Nous avons lancé une API de suppression de l'arrière-plan des images en novembre, et cette API intègre maintenant une IA générative comme celle de notre application. Nous commençons donc à échanger avec de grands sites d'e-commerce et de grandes places de marché qui veulent automatiser le processus.
Je pense que PhotoRoom représente une offre unique dans le sens où nous disposons d'un vaste public de créateurs et que nous pouvons nous appuyer sur leurs retours pour améliorer notre algorithme, puis nous tourner vers les grandes entreprises et leur proposer un niveau de qualité répondant à leur cahier des charges. Les dizaines de millions d'utilisateurs de nos applications mobiles nous offrent un moyen fantastique de tester nos nouvelles technologies, d'obtenir des retours, puis de les améliorer pour les proposer aux grandes places de marché.
Un grand nombre de start-ups spécialisées dans l'IA sont persuadées que leurs produits peuvent révolutionner notre vie quotidienne. Est-ce aussi le cas de PhotoRoom ?
Nous sommes spécialisés dans le commerce visuel, et je pense que l'e-commerce s'oriente vers une stratégie de création de contenus visuels adaptés à chaque profil d'acheteur. Imaginons que vous vendiez des meubles : vous pourriez mettre en scène un même produit dans un environnement moderne ou dans un salon douillet. Vous pourriez même présenter l'un ou l'autre de ces visuels selon le profil de chaque utilisateur, voire le moment de la journée. Notre objectif serait par exemple d'utiliser des tests A/B pour les contenus visuels et les images. Nous voulons vous dire avec quelle image vous allez maximiser vos chances de vente pour chaque client et vous aider à la créer.
Vous travaillez sur ce qui est sans doute l'une des technologies les plus passionnantes et les plus évolutives jamais créées. Les entreprises du monde entier se mettent massivement à l'IA. Que vous inspire le fait de travailler sur un produit qui se développe aussi rapidement ?
J'ai l'impression que c'est Noël tous les jours et je ne sais pas quel cadeau ouvrir en premier. En vérité, je pourrais très facilement me laisser distraire et partir dans une direction différente chaque semaine. Par chance, le cofondateur de l'entreprise, Eliot, sait parfaitement comment rester concentrer sur notre cœur de métier. Nous nous consacrons à la photographie pour le commerce et tenons une liste des choses que nous ne ferons pas chaque trimestre. Alors c'est vrai, nous passons probablement à côté de certaines opportunités, comme les avatars basés sur l'IA, mais ces opportunités n'auraient pas servi notre mission. Je pense que nous évitons ainsi de nous perdre dans la folie de l'IA.
Je travaille dans le milieu technologique depuis assez longtemps pour avoir connu la révolution précédente, celle du téléphone portable. J'ai suivi les premiers cours sur iOS de Stanford. J'ai aussi participé en 2009 à la création de la première application permettant d'envoyer des cartes postales depuis un téléphone portable. Or, si les personnes aiment envoyer des photos de leurs vacances, elles n'ont aucune envie d'envoyer des cartes postales numériques. L'application a donc fait un flop. En revanche, Instagram a marché du tonnerre. J'en ai tiré une leçon : rien ne sert d'imiter ce qui existe déjà avec les nouvelles technologies. Mieux vaut imaginer de nouveaux concepts.