Intervista con il co-fondatore di PhotoRoom
Matthieu Rouif ci racconta delle applicazioni pratiche della magia dell'intelligenza artificiale nella fotografia commerciale, e di come non lasciarsi distrarre in un settore a rapidissima crescita.
Ben prima che i generatori di immagini come Midjourney e DALL·E occupassero le pagine dei quotidiani, la start-up con sede a Parigi PhotoRoom aveva già una storia di successo circa l'IA. Avviata nel 2020 dall'ex responsabile di prodotto di GoPro, Matthieu Rouif, e dall'ingegnere per il machine learning, Eliot Andres, inizialmente l'azienda offriva un'app per la rimozione degli sfondi che ha riscosso immediatamente successo presso i venditori online che necessitavano di un modo efficiente per modificare le immagini dei prodotti commercializzati.
Da allora, l'app dell'azienda è stata tradotta in 28 lingue, scaricata oltre 40 milioni di volte e replicata sul web e tramite API. È stata migliorata con diversi altri strumenti, inclusa la funzionalità di sfondo istantaneo basato su IA che crea immagini di sfondo personalizzate in base a richieste testuali e visive. I singoli venditori e le piccole aziende che utilizzano PhotoRoom possono generare materiale visivo di alta qualità per i prodotti, cosa che fino a poco tempo fa avrebbe richiesto migliaia di dollari per shooting ed editing. Un abbonamento a PhotoRoom Pro costa, invece, solo 9,99 dollari al mese per utente.
PhotoRoom collabora con Stripe dal 2021 e ha annunciato un nuovo investimento da 19 milioni di dollari a novembre 2022. Stripe e Rouif hanno discusso di quanto una capatina al McDonald's abbia cambiato il corso della sua attività, hanno parlato del motivo per cui Rouif ritiene che la personalizzazione delle immagini diventerà più importante solo se il commercio globale diventa più personalizzato ed esaminato il modo in cui mantiene la concentrazione nonostante l'intensa accelerazione del settore dell'intelligenza artificiale.
Perché l'editing fotografico basato su IA è così importante per i singoli venditori da richiedere un'app specializzata o un servizio in abbonamento?
Nel mondo oggi ci sono centinaia di milioni di persone che commercializzano i propri prodotti o hanno un'azienda e ciò che i relativi clienti vedono quando fanno acquisti sono immagini, spesso su dispositivi mobili. Il 72% dell'e-commerce è su mobile. Anche le aziende che vendono presso un negozio fisico hanno bisogno di immagini da caricare in Google Maps o su Instagram per attrarre clienti.
PhotoRoom trasforma queste immagini in prodotti non solo belli, ma in grado di ispirare fiducia. Ci chiediamo come creare i migliori contenuti visivi per trasmettere l'essenza del prodotto e ispirare fiducia nei clienti.
Parlando di fiducia e di autenticità, una critica che di frequente viene mossa alle immagini basate su IA è che sembrano impeccabili o troppo perfette. È un aspetto che la preoccupa?
Durante una dimostrazione alcuni anni fa, i nostri partner ci hanno detto che PhotoRoom impiega un'intelligenza artificiale utile. Midjourney e DALL·E si basano molto sull'estetica, ma forse producono immagini troppo belle per essere vere. La nostra IA generativa riguarda esclusivamente il prodotto: sfondo bianco con un'ombreggiatura semplice e un riflesso su una superficie possono fare la differenza. Non tocchiamo un singolo pixel del prodotto. Scattiamo una foto al prodotto, rimuoviamo lo sfondo e rigeneriamo gli altri pixel, non quelli relativi al prodotto. È fondamentale per i rivenditori che venga mantenuta la qualità del prodotto, compresi i suoi difetti. Quindi rigeneriamo il resto per assicurare il massimo realismo. Credo che la nostra possa chiamarsi IA minimalista.
Gli approcci LLM stanno facendo parlare molto di sé al momento. Questi progressi influiscono su ciò che fate come azienda?
Quello di cui sono davvero contento e che ritengo rivoluzionerà le cose nei prossimi mesi è ciò che il settore definisce "input multimodale". L'idea riguarda, per noi, la possibilità di inserire la fotografia di un prodotto, insieme a del testo per descrivere cosa vorresti vedere, e ricevere un risultato che combina entrambi gli input. Fino a oggi tutti i modelli sono stati caratterizzati dalla monomodalità (inserimento di immagine o inserimento di testo o possibilità di trasformare il testo in immagini). Durante i colloqui con gli utenti, abbiamo capito che le richieste solo testuali richiedono troppo tempo su uno smartphone, che gli utenti soffrono della sindrome della pagina bianca, come se dovessero iniziare da zero; in altre parole non sanno cosa scrivere.
Lei ha pubblicato un tweet affermando l'importanza per PhotoRoom di disporre della propria suite di strumenti di machine learning. Può spiegarci meglio?
In PhotoRoom creiamo partendo da modelli di generazione di base, come Stable Diffusion, ma aggiungiamo valore grazie al feedback degli utenti. Che cosa è importante per loro? L'elevata qualità o la rapidità? Che tipo di accelerazione hardware desiderano? Disporre di un robusto team di machine learning consente di prendere decisioni relative ai prodotti in grado di ottimizzare i risultati per gli utenti finali.
Quindi, che cosa vogliono gli utenti specifici della sua azienda che li distingue dagli utenti comuni?
Sappiamo che i nostri utenti cercano la qualità. Nell'e-commerce l'obiettivo è fare ogni cosa nel modo giusto. Se, ad esempio, si creano 10.000 immagini, un errore dell'1% o 2% significa che ci saranno centinaia di foto da modificare manualmente, anche se si tratta di lievi modifiche per ogni foto. Quindi, per avere un risultato perfetto, vale la pena prendersi qualche altro secondo per l'elaborazione e aggiungere robusti modelli di trasformazione per il machine learning. E se per farlo ti limiti a utilizzare le attrezzature a tua disposizione, non ci riesci.
Come è iniziata la collaborazione con Stripe?
Abbiamo lanciato le app per dispositivi mobili e la fatturazione avveniva tramite App Store e Play Store. Volevamo, però, essere onnipresenti e soddisfare le esigenze dei clienti sia sui dispositivi mobili sia sul Web e Stripe si è dimostrata la soluzione ottimale. Ispira fiducia ed è molto semplice da configurare per gli sviluppatori. Anche Stripe Tax ha favorito la decisione di affidarci a Stripe perché ci rivolgiamo al mercato globale e dobbiamo capire quali sono le normative in ogni paese. Oltre a ciò, per noi è stata fondamentale l'idea di poter gestire il rapporto con i clienti in autonomia.
In futuro, immagina di rivolgersi ad aziende di livello enterprise?
Uno dei motivi per cui abbiamo scelto Stripe, in realtà, è la necessità di passare a un'API. Infatti, lo scorso novembre, abbiamo lanciato un'API per la rimozione degli sfondi. Ora l'API dispone di un'IA generativa simile a quella che utilizziamo per l'app; in questo modo ci stiamo rivolgendo ai grandi siti di e-commerce e ai marketplace che vogliono automatizzare la procedura.
Ritengo che PhotoRoom sia un'azienda unica nel suo genere poiché ci rivolgiamo a un vasto pubblico di produttori e possiamo creare funzionalità in base al loro feedback per migliorare la qualità del nostro algoritmo; poi potremo rivolgerci alle aziende di maggiori dimensioni e garantire quel livello di qualità a cui mirano. Decine di milioni di utenti dell'app mobile rappresentano un ottimo modo per testare le nuove tecnologie, ricevere feedback e migliorare la qualità per i marketplace di e-commerce più grandi.
Molte start-up in ambito IA ritengono che i prodotti che commercializzano possano trasformare gli aspetti più basilari delle nostre vite. Anche PhotoRoom ha questo tipo di ambizione?
Vorremmo aiutare le persone con tutto ciò che riguarda gli aspetti visivi del commercio e ritengo che, in base all'attuale tendenza dell'e-commerce, come esercenti, possiamo creare diversi materiali visivi per persone differenti. Nel caso di un rivenditore di arredamento, è possibile creare un progetto moderno o un salotto confortevole con lo stesso prodotto. È poi possibile mostrare diversi allestimenti a persone differenti, anche in base all'ora del giorno. Pertanto vorremmo eseguire test A/B per immagini e altri materiali visivi. Vogliamo dirti quali immagini favoriranno il maggiore coinvolgimento di ciascuno dei tuoi clienti, poi aiutarti a crearle.
Lei si trova nel mezzo di quella che probabilmente rappresenta una delle più eccitanti e rapide rivoluzioni tecnologiche mai esistita. Come si sente, in qualità di imprenditore, a creare qualcosa che cresce a una velocità supersonica, date le modalità in cui le aziende globali stanno abbracciando l'IA?
Mi sento come un bambino di cinque anni a Natale. Non so quale regalo aprire per primo. In queste situazioni è facile distrarsi e iniziare a creare qualcosa di nuovo ogni settimana. Per fortuna, il mio co-fondatore Eliot ci aiuta a rimanere concentrati. Ci occupiamo di fotografia in ambito commerciale e ogni trimestre compiliamo l'elenco degli aspetti di cui non ci occuperemo. Certo, in questo modo potremmo lasciarci sfuggire qualche opportunità, come gli avatar basati su IA, che però non favorirebbe il raggiungimento degli obiettivi; questo ci ha permesso di non farci coinvolgere nella follia dell'IA generativa.
Sono abbastanza esperto in tecnologie da aver iniziato durante l'ultima rivoluzione, quella dei dispositivi mobili. Ho partecipato alla prima lezione su iOS a Stanford, contribuendo alla creazione della prima app in grado di inviare cartoline tramite smartphone nel 2009. Le persone volevano scambiarsi foto delle vacanze, ma non era possibile farlo tramite smartphone. Instagram ha rappresentato un vero successo. Da quell'esperienza ho imparato l'importanza di non creare funzionalità obsolete con le nuove tecnologie e a creare, invece, nuove funzionalità con le nuove tecnologie.