法语助手
2023-05-25
- Le pape François en doudoune blanche. - Emmanuel Macron qui ramasse des poubelles.
Donald Trump arrêté de force par la police.
Voilà des images qui ont fait le tour du monde ces derniers jours.
Pourtant, toutes ces photos sont fausses.
Ces images sont générées par des intelligences artificielles.
Pour les fabriquer, il suffit de quelques mots.
Les possibilités sont infinies, chaque résultat est inédit et permet
d'illustrer n'importe quelle situation, qu'elle soit vraie ou fausse.
On a clairement passé un cap.
On crée les conditions d'une société de défiance.
Il faudra douter de plus en plus.
Le cerveau humain n'est pas capable de mesurer
la portée de cette intelligence artificielle pour l'instant.
Est-ce que les choses pourraient déraper ?
Pourtant, ces logiciels semblent avoir un sérieux point faible.
Les mains, leurs doigts sont souvent trop nombreux
ou pliés de manière improbable.
Alors, cette lacune peut-elle nous protéger de la désinformation ?
Pour y répondre, il faut d'abord comprendre pourquoi ces logiciels
ont tant de mal à dessiner des mains.
Bon, tant qu'on y est, posons la question
à une intelligence artificielle.
Chat GPT est un robot spécialisé dans le dialogue.
Il suffit d'écrire notre question et il nous répond.
Le programme pointe plusieurs éléments.
D'abord leur forme et leur structure très complexe.
Effectivement, plus d'un quart des os du corps
se trouvent dans les mains.
C'est un ensemble sophistiqué, capable de prendre
des aspects très différents.
Même les plus grands artistes ont dû longuement les étudier
avant de les intégrer dans leurs œuvres les plus mémorables.
GPT précise que même Léonard de Vinci a formulé cette
difficulté dans un de ses carnets.
Le peintre y décrit le mouvement de la main comme très difficile
à exprimer avec des mots.
Bien que ce soit l'une des choses les plus importantes en dessin.
Pour les intelligences artificielles, c'est encore plus compliqué
et c'est directement lié à leur fonctionnement.
Pour obtenir ces photos, le programme a dû apprendre deux choses.
D'abord, générer des images.
Si on l'agrandit beaucoup, on voit qu'une image est composée
de carrés de couleurs, des pixels.
Ensemble, ils forment la perception que nous avons
d'un dessin ou d'une photo.
Cette image se compose par exemple de 1000 pixels
de largeur pour 700 de hauteur, soit 700 000 pixels au total.
L'enjeu est donc de générer artificiellement chacun de
ces pixels et de les agencer d'une manière cohérente
et réaliste pour les humains.
Pour entraîner le programme, les chercheurs utilisent une image
de référence, comme celle-ci.
Ils la dégradent progressivement en y ajoutant ce qu'on appelle du bruit.
À force, il ne reste plus grand-chose de la version originale.
Les scientifiques inversent alors la logique et demandent à la
machine d'enlever le fameux bruit.
Le programme commence ici et tente de reconstituer les
pixels de la version précédente.
Par essais erreurs, il finit par trouver la configuration attendue.
Il répète ensuite l'opération sur chaque maillon de la chaîne,
jusqu'à restituer l'image de départ.
En s'exerçant ainsi sur des milliards d'images,
il apprend à prédire l'agencement des pixels et à transformer
le bruit en une image cohérente.
Ce procédé s'appelle la diffusion.
Le deuxième apprentissage est de faire le lien entre le texte et l'image.
Savoir que cette commande correspond à ce résultat.
Pour y parvenir, les chercheurs utilisent d'immenses bases de données
composées d'images et de textes qui en décrivent le contenu.
Il y en a des milliards et ces programmes ont passé des centaines
de milliers d'heures à les analyser.
Leur mission est de trouver des récurrences
dans l'agencement des pixels.
Ils vont par exemple découvrir que cette configuration
correspond généralement à une pomme et celle-ci à une orange.
Ils analysent aussi la manière dont ces pixels interagissent
avec d'autres combinaisons.
Comme ici, celles d'un bol métallique.
Ces exercices permettent au programme de saisir les nombreuses variables
qui composent une image, son style, ses textures
ou le reflet de la lumière.
Des observations qui vont bien au-delà de l'analyse pixel par pixel
et qui composent ce qu'on appelle l'espace latent de l'image.
À la fin de l'entraînement, le programme est capable de prédire
avec assurance la photo qui correspond à chaque description.
C'est là que la magie opère.
Car une fois le programme capable de faire le lien entre le texte et l'image,
les chercheurs peuvent inverser la commande et lui demander d'utiliser
la diffusion pour générer une nouvelle image, même impossible,
uniquement sur base d'un texte.
Les possibilités sont infinies.
Ce qu'il faut bien comprendre, c'est que le programme ne
fait pas un montage à partir d'images existantes.
Il génère des combinaisons inédites en s'inspirant de la manière
dont les pixels s'agencent statistiquement dans les bases
de données qui le nourrissent.
Le résultat est donc chaque fois différent.
Mais c'est aussi de là que vient la faille du logiciel.
En fait, il ne comprend pas vraiment ce qu'il dessine.
À ses yeux, les mains ne sont qu'une combinaison de pixels
statistiquement agencés au bout d'une autre combinaison appelée bras.
Il ne comprend pas ce qu'est une main, sa tridimensionnalité,
son anatomie, la manière dont les doigts interagissent.
Sa connaissance est limitée à des images en deux dimensions
reprises dans ses bases de données.
Or, si ces données ne contiennent pas suffisamment d'exemples,
il peut avoir du mal à générer des descriptions précises.
Sur ces images, le visage est très présent et s'affiche
toujours de la même manière, deux yeux, un nez et une bouche.
La main, elle, est plus discrète et peut prendre
des aspects très différents.
Enfin, le texte y fait rarement référence.
Ici, on ne parle pas de la manière dont les doigts
tiennent l'appareil photo, mais simplement d'une femme souriante.
Alors forcément, quand le logiciel doit générer
une requête similaire, il improvise.
À y regarder de plus près, d'autres éléments ne collent pas.
Les dents sont trop nombreuses.
Donald Trump a une jambe de trop et le texte est totalement incohérent.
Pour l'instant, ce sont de bonnes astuces pour en vérifier la véracité.
Sauf que ça ne va pas tarder à changer.
En mars 2023, le logiciel à l'origine de ces images
a publié une mise à jour où le rendu des mains a été amélioré.
L'entreprise reste floue sur les méthodes utilisées,
mais les experts supposent que le programme a spécialement été
entraîné sur des images de main, ce qui lui donne plus de matière
pour affiner sa création.
D'autres développent des générateurs d'images en trois dimensions.
S'ils ne sont pas encore très aboutis, une meilleure compréhension
spatiale de la main pourrait à terme leur permettre un meilleur
rendu en deux dimensions.
À ce rythme, il est probable que ces logiciels maîtrisent un jour
la fabrication des mains et qu'il ne soit plus possible à l'œil nu
de discerner le vrai du faux.
Mais cette confusion ne vaut pas que pour les images.
Chat GPT, qui nous sert de guide depuis le début de cette vidéo,
est, lui aussi, entraîné sur d'énormes bases de données.
Des milliards de textes qui lui apprennent à prédire les mots
d'une phrase sans pour autant que cette phrase soit vraie.
Tiens, reprenant par exemple cette citation de Léonard de Vinci,
mentionnée en début de vidéo.
Eh bien, elle n'existe pas.
Elle n'est pas présente dans le carnet en question et nous
n'avons pas été en mesure de la retrouver ailleurs dans son œuvre.
Il semblerait que GPT l'ait tout simplement inventée.
Face aux nombreuses questions soulevées par ces outils,
les autorités travaillent déjà à un cadre juridique.
Il va falloir faire vite, car ces logiciels comptent
chaque mois plus d'utilisateurs et en février 2023,
Chat GPT enregistrait 1 milliard de visites sur son site.
沙发还没有被抢走,赶紧过来坐会吧