
Cet article est extrait du mois de Science et Avenir – La Recherche n°908, d’octobre 2022.
L’image est-elle réelle ou générée par un algorithme ? Souvent, les progrès étonnants de l’intelligence artificielle (IA) brouillent la frontière entre la réalité et la simulation. Le premier mois de 2022 a permis de franchir un palier inédit : pour arriver à maturité, le travail de recherche permet, de manière troublante, de transformer les mots en images (photographies, dessins, croquis, copier des collages, etc.) sur l’écran de l’ordinateur.
La plus puissante de ces technologies en est encore à ses balbutiements. Mais pour être honnête, certains sont déjà en ligne. Dall-E 2 (un nom qui combine celui de Salvador Dalí et du robot Wall-E du film éponyme) est le plus célèbre. Il a été lancé en avril par le centre de recherche technologique indépendant OpenAI, à la tête de ces activités. Craiyon est une version simplifiée de la population générale. Imagen, de Google, et StableDiffusion, créée par un groupe de recherche de l’Université Ludwig-Maximilians de Munich (Allemagne) avec la start-up Stability.AI, est spécialisée dans l’interprétation d’images. Ceux de Midjourney, de la startup américaine du même nom, ont une esthétique d’œuvres d’art. En juin, l’hebdomadaire britannique L’économiste il a même servi à créer la première page : le verso des lettres formes géométriques, qui montrait le dossier fourni “les nouvelles frontières de l’intelligence artificielle “.
L’actuel est nommé : “text-to-image”. Dans la première étape, l’utilisateur crée des visuels à partir de mots et de phrases en langage naturel. Mais l’environnement de la recherche nous permet d’aller beaucoup plus loin. En ajoutant des mots tels que « feutre », « fusain », « aquarelle », mais aussi « Van Gogh » ou « Dali », par exemple, il pourra leur appliquer le style graphique correspondant.
Les niveaux de quantité, de fidélité à la description définie, de réalisme des textes peuvent prêter à confusion, même pour des textes abstraits. Cela se traduit par la capacité d’Imagen à créer une image de “raton laveur portant un casque spatial, regardant par la fenêtre la nuit “. Le résultat est étonnant, mais il faut beaucoup d’essais et d’erreurs sur le texte avant d’obtenir un résultat satisfaisant.
Rares sont cependant les travaux de recherche qui se trouvent immédiatement au cœur des questions de société, de technologie et d’économie. Pour preuve : fin août, la table a pris une tête Théâtre de l’Opéra de l’Espace, créé par Midjourney et présenté comme tel au jury, il a remporté le concours numérique de la Colorado State Fair (USA). L’arrêt a immédiatement soulevé l’ire d’autres artistes, qui eux-mêmes avaient utilisé des logiciels d’infographie classiques. L’humain lauréat (ou plutôt l’écrivain-écrivain) a dû se défendre en expliquant qu’il avait passé 80 heures de travail, à corriger ses notes, à corriger des choses à la main avant d’arriver à l’œuvre finale.
Les résultats sont différents selon les bases de données d’images
Cependant, la méthode soulève des questions. L’artiste correspond ici sur la base de données sur laquelle les algorithmes sont entraînés. Cependant, cela a des implications sur leurs performances, sans parler des biais qu’ils peuvent causer. “On peut trouver des interprétations différentes entre un algorithme entraîné sur une collection d’images postées sur Facebook et le même algorithme entraîné sur des images de Flickr, explique Michel Nerval, co-fondateur du studio de production numérique U2p050. Certains ont été mieux formés que d’autres. “
Le studio a sorti le roman graphique en septembre Moebia, “tiré” par l’algorithme VQGan+Clip d’une histoire courte. Mais nous avons dû essayer de choisir parmi cinq bases de données. “Habituellement, on commencerait par saisir une phrase écrite pour le livre. Parfois cela donnerait le résultat directement attendu, mais parfois les phrases trop longues “seraient perdues” par l’IA et ne fonctionneraient pas. Dans ce cas, nous voulions plutôt travailler avec des mots-clés afin de guider l’algorithme “, explique Michel Nerval.
La transformation « texte en image » est l’expansion des IA dites génératives, comme les GAN, ou réseaux génératifs antagonistes, apparus en 2014. (lis S. et A. n° 858, août 2018). Cette méthode consiste à faire se “vérifier” deux algorithmes, l’un générant le contenu, le second jugeant s’il est acceptable ou non. Il est aussi parfois associé à un codage couleur, comme le GauGan 2 du géant des processeurs graphiques Nvidia.
L’outil GauGan de Nvidia vous permet de créer des photos à partir de croquis approximatifs. Il ressemble à GauGan 2 qui part de la description des personnages. Crédit : Nvidia
L’algorithme associe une description à une image qu’il n’a jamais vue auparavant
“L’innovation, du point de vue du texte, vient du mode Clip, qui permet de représenter au même endroit du texte et des images. », précise Matthieu Labeau, expert en développement automatique du langage à Télécom Paris. Publié en janvier 2021 par OpenAI, Clip s’entraîne sur 400 millions d’images et leurs descriptions disponibles sur Internet (mots-clés, métadonnées), et non plus sur des images avec un résumé. label (“chien”, “chaise”) comme dans les ensembles qui ont été commandés par les chercheurs. La taille de cette étude permet à l’algorithme de révéler le lien entre la description et l’image qu’il n’a pas vu auparavant.
L’objectif initial d’OpenAI était de pouvoir coder et classer les images plus efficacement. Le clip peut également être utilisé pour rechercher des images similaires ou entre du texte. Mais ce projet a conduit l’entreprise à créer l’algorithme génératif Dall-E, dont la première version est sortie en même temps que Clip. “Notre modèle est très proche de celui de GPT (modélisation du langage naturel également développée par OpenAI, ndlr)il s’agit de prédire une chose à la fois (mot, texte, espace, symboles…, ndlr) sauf qu’au lieu d’être des mots, ces choses ont des morceaux d’images “, explique Boris Dayma, créateur de Craiyon.
Pour la partie “image”, une autre méthode intervient : la “diffusion”. Ce type d’algorithme d’apprentissage en profondeur produit du “bruit”, c’est-à-dire un nuage de pixels aléatoires. Puis il “débruite” progressivement en ajustant les pixels qui ne sont plus aléatoires mais en tenant compte des informations qui décrivent l’image que l’on souhaite. Le fonctionnement de cette méthode permet le photoréalisme de Dall-E 2, non envisagé par la première version (qui n’utilisait pas la diffusion) ou Imagen.
Ce n’est que le début. Début septembre, un groupe du Massachusetts Institute of Technology (Cambridge, USA) a présenté Composable Diffusion, une amélioration de la diffusion. “Les algorithmes actuels de ‘texte en image’ ont quelques difficultés à créer des images à partir de descriptions complexes, par exemple lorsqu’il y a plusieurs expressions ; des éléments peuvent ne pas être présents dans l’image. “, explique Shuang Li, co-auteur de l’étude.
Le processus qui y est décrit consiste en plusieurs modèles, chacun considérant une partie de la ligne. Cela montre souvent, aussi, que lorsque l’IA fait preuve d’une habileté impressionnante, l’humain garde le contrôle. Il est le maître du code, le publie ou non, l’améliore, développe les modèles, choisit sur le jeu de données d’apprentissage. S’il y a une machine, cela dépend (encore) des personnes.
Le côté obscur de la pratique artistique
Il n’est pas possible, avec les algorithmes Midjourney ou Dall-E 2, de retrouver une image à partir de mots qui contiennent du sexe ou de la violence. Ils sont conçus pour les bloquer. Mais StableDiffusion n’a pas ces protections… C’est pourquoi cela inquiète Joshua Achiam, expert en validation chez OpenAI. Dans les Tweets envoyés le 10 septembre, il accepte les promesses de création de “text-to-image”, mais il a peur de l’abondance de choses violentes, choquantes, trompeuses.
Autre problème récurrent en IA : le biais. Comme ces algorithmes sont entraînés sur ce qui se trouve sur Internet, ils favorisent les discriminations de toutes sortes. Des ajouts à cela peuvent violer le droit d’auteur. L’agence photo Getty Images a annoncé fin septembre qu’elle refuserait les images créées par l’IA, des œuvres protégées pouvant apparaître dans des bases de données de formation sans autorisation.