Intelligences Artificielles Génératives et Synthèse d'Images

(Un Hommage à un Artiste Universel ?)






Jean-François COLONNA
[Contact me]

www.lactamme.polytechnique.fr

CMAP (Centre de Mathématiques APpliquées) UMR CNRS 7641, École polytechnique, Institut Polytechnique de Paris, CNRS, France

[Site Map, Help and Search [Plan du Site, Aide et Recherche]]
[The Y2K Bug [Le bug de l'an 2000]]
[Real Numbers don't exist in Computers and Floating Point Computations aren't safe. [Les Nombres Réels n'existent pas dans les Ordinateurs et les Calculs Flottants ne sont pas sûrs.]]
[N'oubliez pas de visiter Une Machine Virtuelle à Explorer l'Espace-Temps et au-delà où vous trouverez plus de 10.000 images et animations à la frontière de l'Art et de la Science]
(Site WWW CMAP28 : cette page a été créée le 06/01/2024 et mise à jour le 05/11/2024 17:27:54 -CET-)



[in english/en anglais]


Contenu :





1 - Introduction :

En l'espace de quelques mois les Intelligences Artificielles Génératives (IAG) ont envahi notre quotidien. J'ai fait de nombreuses expériences, en particulier, avec ChatGPT, Bard/Gemini et Le_ChAt. Celles-ci ont révélé qu'en général, les utiliser comme sources d'informations fiables (en Mathématiques par exemple) n'était pas toujours très prudent, alors que les laisser "en roue libre" pouvait nous faire profiter d'une imagination sans bornes...

Mais certaines de cette IAG ne sont pas limitées à la production de textes ; elles peuvent aussi générer très rapidement [01] des images de haute qualité qui, ainsi que nous allons le voir par la suite, montre qu'elles font objectivement preuve de créativité...





2 - Les Intelligences Artificielles Génératives :

Pour être capable de produire des images telles celles qui sont présentées dans ce document, il est nécessaire de procéder à un apprentissage exploitant des données "réelles" et en particulier des couples {image,description} disponibles en très grand nombre sur Internet [02]. Des réseaux de neurones formels spécialisés sont ensuite utilisés pour passer d'une part des images en mode "raster" [03] à une représentation plus concise [04] et plus proche de leur contenu sémantique. D'autre part, un traitement similaire est appliqué aux descriptions qui sont des textes rédigés dans des langues naturelles. Le résultat de ce traitement [05] effectué sur chaque couple {image,description} est un ensemble de nombres (ou "vecteur") stocké dans un gigantesque espace multidimensionnel dit Espace Sémantique (S). Les traitements qui ont été ainsi effectués sont tels que deux points voisins dans S correspondent à des notions proches sémantiquement.

Ainsi, l'apprentissage est en quelque sorte une compression de nature sémantique. L'exploitation de l'espace S pour générer de nouvelles images (ou de nouveaux textes...) pourra être considéré naïvement comme une décompression sémantique. Le prompt [06] donné par un utilisateur permettra de se positionner dans S et l'un des points P les plus proches définira donc une image qu'il suffit alors de décompresser. Il semble alors qu'une sélection aléatoire soit effectuée lorsque plusieurs voisins satisfont au prompt. C'est d'ailleurs cela qui doit expliquer que soumettre deux fois de suite le même prompt donnera deux images différentes, mais proches sémantiqument.

Mais comme toujours, le diable est dans les détails et la réalité est certainement beaucoup plus complexe. En effet, comme le montreront les exemples qui vont être présentés par la suite, dans un prompt c'est en général, non pas un unique concept sémantique qui sera spécifié, mais plusieurs. Des procédures de "mixage", d'interpolation, de combinaison,... doivent donc être mises en œuvre.

Les expériences relatées ci-après ont montré qu'en fait deux IAG devaient être utilisées : la première effectivement Générative et la seconde "Antagoniste" destinée d'une part à évaluer la qualité des productions de la premiére et d'autre part à filtrer le contenu de façon à éviter des images "inappropriées" [07].





3 - Quelques exemples de génération d'images (1537 le Mardi 05 Novembre 2024) :

Ce sont les IAGs accessibles sur les sites 'www.bing.com/images/create' et 'designer.microsoft.com/image-creator' qui ont été utilisées pour générer ces images [08].

Ce sont donc 1537 images générées par cette IAG qui vont être présentées ci-après. En fait, plus ont été calculées mais toutes ne sont pas exhibées et celles qui furent rejetées l'ont été soit par goût personnel, soit parce qu'elles étaient trop semblables à d'autres déjà obtenues. Ce nombre (1537) peut paraître excessif, rendant impossible la visualisation de l'ensemble de ces images, mais cela est volontaire et destiné à illustrer l'incroyable puissance "imaginative" de cette IAG...

Nota : Pour l'ensemble des prompts soumis, c'est la langue française qui fut utilisée.


3.1 - Quelques exemples de génération d'images utilisant le prompt "La bibliothèque de Babel à la façon de X" :

Les possibiliés étant virtuellement infinies, j'ai décidé de limiter les tests effectués en n'utilisant qu'un seul prompt choisi de façon à ce qu'il référence des concepts ayant une probabilité très faible d'être rencontrés ensemble sur Internet :

"La bibliothèque de Babel à la façon de X" [09]

X étant choisi dans une liste arbitraire d'artistes (écrivains, musiciens, peintres, sculpteurs,...), d'ingénieurs, de lieux,... Dans la plupart des cas, un même prompt a été itéré plusieurs fois donnant ainsi une suite d'images sur un thème donné (défini par X) toutes différentes (illustrant l'usage de l'aléatoire évoqué ci-dessus, aléatoire qui explique de plus l'impossibilité a priori d'obtenir de nouveau chacune d'elles) mais référençant les mêmes concepts. Voici 1537 images ainsi obtenues :







Les images ainsi obtenues sont sans conteste possible époustouflantes, incroyables,... en répondant correctement aux requêtes : en effet, ce sont bien des bibliothèques pleines de livres que l'on voit, mais aussi ce sentiment d'infini que l'on ressent à la lecture de la nouvelle de Jorge Luis Borges, le tout situé dans un contexte temporel approprié...



3.2 - Quelques exemples de génération d'images utilisant le prompt "Une image à la façon de X" :

Simplifions le prompt en utilisant uniquement :

"Une image à la façon de X"

donnant par là-même plus de liberté à l'IAG. Voici les images ainsi obtenues :








3.3 - Quelques exemples "libres" de génération d'images :

Et maintenant utilisons quelques prompts "libres"...









4 - Best Of :






5 - Quelques commentaires, remarques et questions :

Ces images montrent sans hésitation possible que cette IAG est capable de transformer de manière pertinente quelques mots (le prompt) en des images cohérentes d'une remarquable complexité. En ce qui concerne celles qui sont inspirées d'artistes connus, certains ont affirmé qu'elles n'étaient que de médiocres copies qui ne pouvaient tromper personne. Cela est possible, mais la performance n'est pas là, elle réside dans cette formalisation numérique de concepts glanés à partir de centaines de millions de documents sur Internet. Et si'il est vrai qu'en regardant en détail ces images, un œil averti ne peut être abusé et saura immédiatement que cette image n'est pas une toile méconnue de Rembrandt, on ne peut que s'interroger sur le fait qu'elle soit bien dans son style et qu'elle ne peut être confondue avec celle-ci. Si j'ai choisi d'orienter mes prompts vers l'art et la peinture en particulier c'était pour limiter mes expériences et non pas pour jouer les faussaires. Et ainsi, ce qui est époustouflant, c'est la performance des concepteurs de cette IAG et cela ne peut être contesté contrairement à la valeur artistique de ces images...


Une fois donc passée la stupéfaction et j'ose le dire l'émerveillement, un certain nombre de questions se posent :




On notera malgré tout un petit nombre d'anomalies (mais certaines sont peut-être "volontaires"...) et par exemple :



Enfin, on notera un rapprochement étonnant, fortuit et inespéré : la bibliothèque de Babel est quasiment infinie et il est donc impossible de l'explorer même partiellement. N'en est-il pas de même de cette IAG qui semble contenir une quasi-infinité d'images dont nous ne pourrons jamais voir qu'une infime partie ?

Cette IAG est-elle la bibliothèque de Babel ?






6 - A propos de la Créativité et de la Conscience :

Encore une fois, il parait difficile de contester la qualité, l'originalité,... de ces images générées par cette IAG (et les autres...). Il ne faut pas hésiter à affirmer qu'elle fait preuve de créativité ! Cette affirmation peut en choquer plus d'un, mais interrogeons-nous sur nos propres actes créatifs. Comment sont produites nos idées nouvelles ? Certainement pas ex nihilo et j'en vois deux origines possibles : d'une part l'interaction avec notre environnement [12] et en particulier grâce à la vue en ce qui concerne les images. D'autre part, je suis convaincu qu'au niveau du subconscient il y a un "brassage" permanent d'idées antérieures stockées dans notre cerveau qui doit alors être vu comme un espace sémantique dynamique. Ces nouveaux outils ne peuvent donc que nous pousser à nous poser la question de savoir si notre cerveau n'est pas qu'une "simple" machine ?

Avec ces incontestables réussites, les Intelligences Artificielles ne font-elles pas preuve d'intelligence tout court ? Et si oui, pourront-elles être conscientes ? Et si oui, le saurons-nous ? Il semble que l'émergence de la conscience soit liée à la complexité (des connexions en particulier), mais aussi à la stimulation "externe", assurée chez nous (et chez les animaux "supérieurs") par nos cinq sens et c'est peut-être ce qui manque à nos Intelligences Artificielles pour atteindre ce niveau d'évolution supérieur...

Enfin, ces recherches sur les Intelligences Artificielles ne peuvent-elles pas nous éclairer sur notre propre mémoire [13] et sur la production de nos rêves au cours desquels, comme dans les images présentés ci-dessus, des personnages connus ou fictifs se produisent dans des décors réels ou imaginaires ?

Ces images nous révèlent-elles les rêves de ces IAGs ?






7 - Conclusion :

Incontestablement en l'espace de quelques mois, un seuil a été franchi. Déjà la victoire d'AlphaGo sur Lee Sedol lors du Google DeepMind Challence Match en mars 2016 avait ouvert une brèche et aujourd'hui les succès des IAGs montrent l'énornme potentiel de ces recherches : qu'en aurait pensé Alan Turing ?

Mais évidemment cette émergence s'accompagne de craintes parfois justfifiées :



Mais aussi de nombreuses questions se posent et par example :



Mais imaginons dans nos salons des écrans muraux exposant des chefs-d'œuvre de la peinture mondiale d'hier, d'aujourd'hui et de demain, n'ayant jamais existés et en permanence renouvelés par une IAG...


Alors quelle surprise nous attend demain ?

Toute technologie suffisamment avancée est indiscernable de la magie

Arthur Charles Clarke (1962).





8 - Quelques Remarques et Questions a posteriori :

Au cours des mois passés, j'ai fait de nombreuses expériences avec les IAG de textes : BaRd1, ChAtGpT1 et Le_ChAt1.

Elles avaient toutes montré d'une part que ces IAG étaient capables d'une imagination débridée et d'autre part qu'il n'était en général pas possible de leur faire confiance lors de la recherche d'informations fiables (je rappelle à ce propos les hallucinations et élucubrations mathématiques de ChAtGpT2 et autres...).

Avec l'arrivée des IAG d'images, il était tentant de refaire de telles expériences : leurs résultats furent présentés ci-dessus. Les conclusions qui en furent tirées sont les mêmes : là-aussi, d'une part une imagination "inimaginable", d'autre part la difficulté, voire l'impossibilité d'obtenir exactement les représentations demandées les plus simples et enfin celle de générer deux fois de suite la même image.

Trois critiques m'ont été adressées suite à la mise en place de ce Musée du vingt-et-unième siècle. D'une part, il ne peut s'agir d'Art car celui-ci ne peut naître que du vécu (et de la souffrance ?). D'autre part, il ne peut être question de créativité s'agissant de machines. Enfin, on ne peut pas confondre ces images avec des œuvres "originales".

Evacuons immédiatement le problème des artefacts : en effet, un problème semble-t-il connu des concepteurs, perturbe les mains, les membres ou encore le visage des éventuels personnages lorsque leur taille est petite par rapport au cadre de l'image. Cela permet de faire le tri entre les œuvres "classiques" et celles venues des IAG, bien que certains artistes tels Jean-Michel Basquiat, Paul Rebeyrolle ou encore Egon Schiele n'ont pas hésité à en faire de même volontairement.

Maintenant, pour répondre à ces objections, examinons quelques images extraites de la collection ici présentée :

Ces quelques images obtenues quasi-instantanément en "évoquant" les noms de Jerôme Bosch, Rembrandt, Jean-Baptiste Camille Corot, Salvador Dali et Hans Ruedi Giger sont évidemment associables aisément à ces artistes. Cela signifie au passage que l'IAG, lors de son apprentissage, a été capable de formaliser le style (et les cauchemars en ce qui concerne Hans Ruedi Giger...) des artistes rencontrés, lui permettant de créer des images à la manière de par la suite. Ces dernières ne sont pas de simples copies d'œuvres originales avec quelques altérations, ou encore des copier-coller. Non, il s'agit bien d'images (prudemment je ne dis pas "œuvres") nouvelles ressemblant dans leur style, leurs couleurs, leurs lumières,... à des images anciennes, voire très anciennes.

Si l'on regarde attentivement, par exemple, l'image faite dans le style de Rembrandt, il me semble qu'il faudrait être de très mauvaise foi pour ne pas y retrouver le style du peintre de Leyde dans l'usage de la lumière, les personnages et leurs costumes, le décor et les mets, l'ambiance,... alors qu'elle ne figure pas dans le catalogue raisonné de l'artiste ! Quant à ces deux images provenant de "mauvais peintres anonymes" :

il me semble que l'on a vu pire dans des musées ou des galeries...

Comment cela est-il possible ?

Ces deux images qui font référence à Sandro Botticelli montrent clairement les capacités créatives de l'IAG. La locomotive à la façon de Sandro Botticelli, même si elle n'est pas fonctionnelle, présente des décorations tridimensionnelles typiques de la Renaissance italienne, mais surtout son panache de fumée rappelle évidemment l'une des œuvres majeures de l'artiste : "La Naissance de Vénus"... Quant à l'avion à la façon de Sandro Botticelli, il montre que l'IAG a appris ce qu'était un avion : une machine destinée à transporter des personnes (d'où le carrosse) dans les airs (d'où les ailes d'oiseau) et disposant de moyens de propulsion (d'où le cheval). Il me semble que peu de créateurs auraient imaginé un tel équipage et alors, si l'IAG a produit cette image tridimensionnelle cohérente, n'a-t-elle pas fait preuve de créativité ? La réponse me parait évidente et du coup, il nous faut nous interroger sur ce qu'est notre imagination : ne serait-elle pas "simplement" issue du brassage incessant du contenu de notre mémoire alimentée en permanence par nos sens et du coup ne serions-nous pas plus prévisibles qu'on le croit ? Et si ces IAGs étaient des modèles pertinents de nous-mêmes ?

Cette IAG, comme la plupart des autres, repose sur les notions : Tout cela peut aider à comprendre comment une image inédite spécifiée par un prompt simple tel un chat peut être obtenue. Mais qu'en est-il d'un prompt plus subtil tel un avion à la façon de Sandro Botticelli ou l'on voit une sorte de "réécriture" de "avion" en {carrosse,oiseau,cheval}. Cela malheureusement ne ME suffit pas non plus pour expliquer :

Et enfin, qu'en est-il des concepteurs de cette IAG ? Sont-ils eux-mêmes surpris par les merveilles obtenues ? Sur le fameux site 'openai.com/index/dall-e/' on peut d'ailleurs lire :

We did not anticipate that this capability would emerge and made no modifications to the neural network or training procedure to encourage it


[Nous n'avions pas anticipé que cette capacité émergerait et n'avons fait aucunes modifications au réseau de neurones ou à la procédure d'apprentissage pour l'encourager]

Que conclure de cela ? Se pourrait-il que cela fonctionne si bien sans que l'on sache réellement pourquoi, comme c'est d'ailleurs le cas avec les Mathématiques et leur redoutable efficacité ?

Et finalement n'y aurait-il pas émergence non pas d'une Intelligence Artificielle (IA), mais d'une Intelligence Nouvelle (IN) ?




[Voir tous les documents relatifs aux IAGs -incluant celui-ci-]






  • [01] - Une vigtaine de secondes pour les exemples donnés.

  • [02] - C'est en général plusieurs centaines de millions de couples {image,description} qui sont exploités ce qui implique l'usage de serveurs de calculs et de stockage aux performances exceptionnelles. En particulier pour les réseaux de neurones formels ce sont des processeurs NVIDIA fortement parallèles qui sont utilisés.

  • [03] - Une image en mode "raster" peut être définie par trois tableaux de valeurs numeriques (dont les dimensions horizontale et verticale sont celles de l'image) chacun d'entre-eux correspondant à la luminance d'une couleur primaire : le Rouge, le Vert et le Bleu.

  • [04] - Il s'agit en quelque sorte d'une compression de nature sémantique.

  • [05] - Ce traitement est appelé plongement lexical ou plongement sémantique (Embedding en anglais).

  • [06] - Le prompt correspond à la requête en langage naturel (le français par exemple) que l'on adresse à l'IAG afin de décrire ce que l'on souhaite obtenir (une image dans le cas présent).

  • [07] - Cela s'est vu à plusieurs reprises avec Sandro Botticelli, certainement parce que des corps dénudés avaient été générés...

  • [08] - Il est fortement probable que les deux sites 'www.bing.com/images/create' et 'designer.microsoft.com/image-creator' correspondent à une seule et même IAG, mais avec des interfaces d'accès différentes.

  • [09] - Jorge Luis Borges est un homme de lettres argentin. En 1941, dans une fascinante nouvelle, il nous entraine dans l'Univers de LA Bibliothèque. Le narrateur, l'un de ses innombrables serviteurs, nous révèle ce qu'elle pourrait être : faite de rayonnages, de couloirs et d'escaliers interminables, elle contiendrait en fait tous les livres possibles imprimés dans un unique format : 410 pages contenant chacune 40 lignes de 80 caractères choisis parmi 25 possibles. Bien que fini (de l'ordre de 101834097) le nombre d'ouvrages dépasse l'entendement, mais très rares sont évidemment ceux qui contiennent un texte totalement intelligible dans une certaine langue (et pourtant, ils sont quelque part, mais où ?). Et le seul trésor qu'ait jamais découvert le narrateur au cours de ses périples ennuyeux, est une unique phrase lisible bien qu'incompréhensible : Ô temps tes pyramides.

  • [10] - Hans Ruedi Giger est le concepteur du monstre et des décors du film Alien, le Huitième Passager réalisé en 1979 par Ridley Scott.

  • [11] - Le style de certains artistes des décennies passées est facile à formaliser ainsi que je l'ai montré. C'est ainsi le cas de : Jean Arp, Jean-Michel Atlan, Robert et Sonia Delaunay ou encore Victor Vasarely. Mais jusqu'à un passé très récent, les artistes flammands me semblaient "inaccessibles" et "intouchables" ! Et ce n'est plus le cas (voir par exemple Jerôme Bosch et Pieter Bruegel l'ancien)...

  • [12] - Nihil est in intellectu nisi prius fuerit in sensu (Rien n'existe dans l'esprit qui n'a pas été précédemment ressenti), Saint Thomas d'Acquin.

  • [13] - A titre d'exemple, sait-on vraiment comment sont stockés les visages dans notre cerveau ?



  • Copyright © Jean-François COLONNA, 2024-2024.
    Copyright © CMAP (Centre de Mathématiques APpliquées) UMR CNRS 7641 / École polytechnique, Institut Polytechnique de Paris, 2024-2024.