Intelligences Artificielles Génératives et Synthèse d'Images

(Un Hommage à un Artiste Universel ?)






Jean-François COLONNA
[Contact me]

www.lactamme.polytechnique.fr

CMAP (Centre de Mathématiques APpliquées) UMR CNRS 7641, École polytechnique, Institut Polytechnique de Paris, CNRS, France

[Site Map, Help and Search [Plan du Site, Aide et Recherche]]
[The Y2K Bug [Le bug de l'an 2000]]
[Real Numbers don't exist in Computers and Floating Point Computations aren't safe. [Les Nombres Réels n'existent dans les Ordinateurs et les Calculs Flottants ne sont pas sûrs.]]
[N'oubliez pas de visiter Une Machine Virtuelle à Explorer l'Espace-Temps et au-delà où vous trouverez plusieurs milliers d'images et d'animations à la frontière de l'Art et de la Science]
(Site WWW CMAP28 : cette page a été créée le 01/06/2024 et mise à jour le 19/04/2024 11:18:29 -CEST-)



[in english/en anglais]


Contenu :





1 - Introduction :

En l'espace de quelques mois les Intelligences Artificielles Génératives (IAG) ont envahi notre quotidien. J'ai fait de nombreuses expériences, en particulier, avec ChatGPT et Bard/Gemini. Celles-ci ont révélé qu'en général, les utiliser comme sources d'informations fiables (en Mathématiques par exemple) n'était pas toujours très prudent, alors que les laisser "en roue libre" pouvait nous faire profiter d'une imagination sans bornes...

Mais certaines de ces IAGs ne sont pas limitées à la production de textes ; elles peuvent aussi générer très rapidement [01] des images de haute qualité qui, ainsi que nous allons le voir par la suite, montre qu'elles font objectivement preuve de créativité...





2 - Les Intelligences Artificielles Génératives :

Pour être capable de produire des images telles celles qui sont présentées dans ce document, il est nécessaire de procéder à un apprentissage exploitant des données "réelles" et en particulier des couples {image,description} disponibles en très grand nombre sur Internet [02]. Des réseaux de neurones formels spécialisés sont ensuite utilisés pour passer d'une part des images en mode "raster" [03] à une représentation plus concise [04] et plus proche de leur contenu sémantique. D'autre part, un traitement similaire est appliqué aux descriptions qui sont des textes rédigés dans des langues naturelles. Le résultat de ce traitement effectué sur chaque couple {image,description} est un ensemble de nombres (un "point") stocké dans un gigantesque espace multidimensionnel dit Espace Sémantique (S). Les traitements qui ont été ainsi effectués sont tels que deux points voisins dans S correspondent à des notions proches sémantiquement.

Ainsi, l'apprentissage est en quelque sorte une compression de nature sémantique. L'exploitation de l'espace S pour générer de nouvelles images (ou de nouveaux textes...) pourra être considéré naïvement comme une décompression sémantique. Le prompt [05] donné par un utilisateur permettra de se positionner dans S et l'un des points P les plus proches définira donc une image qu'il suffit alors de décompresser. Il semble alors qu'une sélection aléatoire soit effectuée lorsque plusieurs voisins satisfont au prompt. C'est d'ailleurs cela qui doit expliquer que soumettre deux fois de suite le même prompt donnera deux images différentes, mais proches sémantiqument.

Mais comme toujours, le diable est dans les détails et la réalité est certainement beaucoup plus complexe. En effet, comme le montreront les exemples qui vont être présentés par la suite, dans un prompt c'est en général, non pas un unique concept sémantique qui sera spécifié, mais plusieurs. Des procédures de "mixage", d'interpolation, de combinaison,... doivent donc être mises en œuvre.

Les expériences relatées ci-après ont montré qu'en fait deux IAG devaient être utilisées : la première effectivement Générative et la seconde "Antagoniste" destinée d'une part à évaluer la qualité des productions de la premiére et d'autre part à filtrer le contenu de façon à éviter des images "inappropriées" [06].





3 - Quelques exemples de génération d'images (1450 le Vendredi 19 Avril 2024) :

C'est l'IAG accessible sur le site 'www.bing.com/images/create' qui a été utilisée pour générer ces images.

Ce sont donc 1450 images générées par cette IAG qui vont être présentées ci-après. En fait, plus ont été calculées mais toutes ne sont pas exhibées et celles qui furent rejetées l'ont été soit par goût personnel, soit parce qu'elles étaient trop semblables à d'autres déjà obtenues. Ce nombre (1450) peut paraître excessif, rendant impossible la visualisation de l'ensemble de ces images, mais cela est volontaire et destiné à illustrer l'incroyable puissance "imaginative" de cette IAG...

Nota : Pour l'ensemble des prompts soumis, c'est la langue française qui fut utilisée.


3.1 - Quelques exemples de génération d'images utilisant le prompt "La bibliothèque de Babel à la façon de X" :

Les possibiliés étant virtuellement infinies, j'ai décidé de limiter les tests effectués en n'utilisant qu'un seul prompt choisi de façon à ce qu'il référence des concepts ayant une probabilité très faible d'être rencontrés ensemble sur Internet :

"La bibliothèque de Babel à la façon de X" [07]

X étant choisi dans une liste arbitraire d'artistes (écrivains, musiciens, peintres, sculpteurs,...), d'ingénieurs, de lieux,... Dans la plupart des cas, un même prompt a été itéré plusieurs fois donnant ainsi une suite d'images sur un thème donné (défini par X) toutes différentes (illustrant l'usage de l'aléatoire évoqué ci-dessus, aléatoire qui explique de plus l'impossibilité a priori d'obtenir de nouveau chacune d'elles) mais référençant les mêmes concepts. Voici 1450 images ainsi obtenues :







Les images ainsi obtenues sont sans conteste possible époustouflantes, incroyables,... en répondant correctement aux requêtes : en effet, ce sont bien des bibliothèques pleines de livres que l'on voit, mais aussi ce sentiment d'infini que l'on ressent à la lecture de la nouvelle de Jorge Luis Borges, le tout situé dans un contexte temporel approprié...



3.2 - Quelques exemples de génération d'images utilisant le prompt "Une image à la façon de X" :

Simplifions le prompt en utilisant uniquement :

"Une image à la façon de X"

donnant par là-même plus de liberté à l'IAG. Voici les images ainsi obtenues :








3.3 - Quelques exemples "libres" de génération d'images :

Et maintenant utilisons quelques prompts"libres"...









4 - Best Of :






5 - Quelques commentaires, remarques et questions :

Une fois donc passée la stupéfaction et j'ose le dire l'émerveillement, un certain nombre de questions se posent :




On notera malgré tout un petit nombre d'anomalies (mais certaines sont peut-être "volontaires"...) et par exemple :



Enfin, on notera un rapprochement étonnant, fortuit et inespéré : la bibliothèque de Babel est quasiment infinie et il est donc impossible de l'explorer même partiellement. N'en est-il pas de même de cette IAG qui semble contenir une quasi-infinité d'images dont nous ne pourrons jamais voir qu'une infime partie ?

Cette IAG est-elle la bibliothèque de Babel ?






6 - A propos de la Créativité et de la Conscience :

Encore une fois, il parait difficile de contester la qualité, l'originalité,... de ces images générées par cette IAG (et les autres...). Il ne faut pas hésiter à affirmer qu'elle fait preuve de créativité ! Cette affirmation peut en choquer plus d'un, mais interrogeons-nous sur nos propres actes créatifs. Comment sont produites nos idées nouvelles ? Certainement pas ex nihilo et j'en vois deux origines possibles : d'une part l'interaction avec notre environnement et en particulier grâce à la vue en ce qui concerne les images. D'autre part, je suis convaincu qu'au niveau du subconscient il y a un "brassage" permanent d'idées antérieures stockées dans notre cerveau qui doit alors être vu comme un espace sémantique dynamique. Ces nouveaux outils ne peuvent donc que nous pousser à nous poser la question de savoir si notre cerveau n'est pas qu'une "simple" machine ?

Avec ces incontestables réussites, les Intelligences Artificielles ne font-elles pas preuve d'intelligence tout court ? Et si oui, pourront-elles être conscientes ? Et si oui, le saurons-nous ? Il semble que l'émergence de la conscience soit liée à la complexité (des connexions en particulier), mais aussi à la stimulation "externe", assurée chez nous (et chez les animaux "supérieurs") par nos cinq sens et c'est peut-être ce qui manque à nos Intelligences Artificielles pour atteindre ce niveau d'évolution supérieur...

Enfin, ces recherches sur les Intelligences Artificielles ne peuvent-elles pas nous éclairer sur notre propre mémoire [10] et sur la production de nos rêves au cours desquels, comme dans les images présentés ci-dessus, des personnages connus ou fictifs se produisent dans des décors réels ou imaginaires ?

Ces images nous révèlent-elles les rêves de ces IAGs ?






7 - Conclusion :

Incontestablement en l'espace de quelques mois, un seuil a été franchi. Déjà la victoire d'AlphaGo sur Lee Sedol lors du Google DeepMind Challence Match en mars 2016 avait ouvert une brèche et aujourd'hui les succès des IAGs montrent l'énornme potentiel de ces recherches : qu'en aurait pensé Alan Turing ?

Mais évidemment cette émergence s'accompagne de craintes parfois justfifiées :



Mais imaginons dans nos salons des écrans muraux exposant des chefs-d'œuvre de la peinture mondiale d'hier, d'aujourd'hui et de demain, n'ayant jamais existés et en permanence renouvelés par une IAG...


Alors quelle surprise nous attend demain ?

Toute technologie suffisamment avancée est indiscernable de la magie

Arthur Charles Clarke (1962).





  • [01] - Une vigtaine de secondes pour les exemples donnés.

  • [02] - C'est en général plusieurs centaines de millions de couples {image,description} qui sont exploités ce qui implique l'usage de serveurs de calculs et de stockage aux performances exceptionnelles. En particulier pour les réseaux de neurones formels ce sont des processeurs NVIDIA fortement parallèles qui sont utilisés.

  • [03] - Une image en mode "raster" peut être définie par trois tableaux de valeurs numeriques (dont les dimensions horizontale et verticale sont celles de l'image) chacun d'entre-eux correspondant à la luminance d'une couleur primaire : le Rouge, le Vert et le Bleu.

  • [04] - Il s'agit en quelque sorte d'une compression de nature sémantique.

  • [05] - Le prompt correspond à la requête en langage naturel (le français par exemple) que l'on adresse à l'IAG afin de décrire ce que l'on souhaite obtenir (une image dans le cas présent).

  • [06] - Cela s'est vu à plusieurs reprises avec Sandro Botticelli, certainement parce que des corps dénudés avaient été générés...

  • [07] - Jorge Luis Borges est un homme de lettres argentin. En 1941, dans une fascinante nouvelle, il nous entraine dans l'Univers de LA Bibliothèque. Le narrateur, l'un de ses innombrables serviteurs, nous révèle ce qu'elle pourrait être : faite de rayonnages, de couloirs et d'escaliers interminables, elle contiendrait en fait tous les livres possibles imprimés dans un unique format : 410 pages contenant chacune 40 lignes de 80 caractères choisis parmi 25 possibles. Bien que fini (de l'ordre de 101834097) le nombre d'ouvrages dépasse l'entendement, mais très rares sont évidemment ceux qui contiennent un texte totalement intelligible dans une certaine langue (et pourtant, ils sont quelque part, mais où ?). Et le seul trésor qu'ait jamais découvert le narrateur au cours de ses périples ennuyeux, est une unique phrase lisible bien qu'incompréhensible : Ô temps tes pyramides.

  • [08] - Hans Ruedi Giger est le concepteur du monstre et des décors du film Alien, le Huitième Passager réalisé en 1979 par Ridley Scott.

  • [09] - Le style de certains artistes des décennies passées est facile à formaliser ainsi que je l'ai montré. C'est ainsi le cas de : Jean Arp, Jean-Michel Atlan, Robert et Sonia Delaunay ou encore Victor Vasarely. Mais jusqu'à un passé très récent, les artistes flammands me semblaient "inaccessibles" et "intouchables" ! Et ce n'est plus le cas (voir par exemple Jerôme Bosch et Pieter Bruegel l'ancien)...

  • [10] - A titre d'exemple, sait-on vraiment comment sont stockés les visages dans notre cerveau ?



  • Copyright © Jean-François COLONNA, 2024-2024.
    Copyright © CMAP (Centre de Mathématiques APpliquées) UMR CNRS 7641 / École polytechnique, Institut Polytechnique de Paris, 2024-2024.