IA Générative

état, histoire, enjeux, futur

https://git.interhacker.space/alban/conference_ia_generative

Objectif : comment on à arrive à ces texte ⇒ image ...

https://huggingface.co/Gustavosta/MagicPrompt-Stable-Diffusion

...

texte ⇒ texte

texte ⇒ son

image ⇒ texte

image ⇒ son

son ⇒ texte

son ⇒ image

...

Quelles transformations ces méthodes d'IA vont opérer dans le domaine de la création ?

Pourquoi c'est intéressant ? Demain, partout, quand on veut ?

https://picryl.com/media/henry-morgenthau-half-length-portrait-seated-at-desk-facing-right-holding-telephone
https://commons.wikimedia.org/wiki/File:Aix-en-Provence-FR-13-cours_Mirabeau-femme_au_smartphone-01.jpg?uselang=fr

Une adoption de plus en plus rapide

https://caroli.org/en/the-technology-adoption-curve/

IA Générative = forme d'intelligence artificielle qui vise à générer de nouvelles idées, concepts, objets ou autres, plutôt qu'à simplement les reconnaître ou les classer.

https://www.flickr.com/photos/s2art/282743817

Qui suis-je ?

Panorama

https://aaronsim.notion.site/Generative-AI-Database-Types-Models-Sector-URL-API-more-b5196c870594498fb1e0d979428add2d

Acteurs image

StableDiffusion

Dall-E 2, Midjourney et autres

Make a video

Passage d'un cap en 2022

$ StableDiffusion = coût d'entraînement initial 600 000€ ⚖️ StableDiffusion = entraîné sur 5 Milliards d'images sur Internet 🏙️Enjeux sociétaux : StableDiffusion = modèle plus opensource que les autres

Acteurs sons

MusicML

https://google-research.github.io/seanet/musiclm/examples

Riffusion

Synthèse vocale: murf.ai

Mimic

Techno : Les modèles d'IA par ML concurrencés par d'autres méthodes combinatoires / synthèse à base de formules

$ Recherche et investissmeent dans la génération audio moindres.

Acteurs texte

Chat GPT

cedille.ai

Copilot

De bons résultats depuis 5 ans avec des modèles de plus en plus gros

🏙️ GPT3 créé par OpenAI, modèle opensource abandonné, startup fondé par Peter Thiel et Elon Musk $ Droits exclusifs sur GPT3 vendu à Microsoft pour 1 milliards de $. Avec GPT3, OpenAI se vallorise à 29 milliards $. ⚖️ GPT3 = entraîné sur 500 Milliards de tokens, dont 400 provenant du web public

Histoire

Avant 1950 : la combinatoire et autres imaginaires

-1200 les rois de la dynastie Shang eux-même font de la divination par forme des os : on coupe des bouts d'une matrice

https://en.wikipedia.org/wiki/Oracle_bone#Cracking_and_interpretation

1100 les automates d'Al Jazari capables de jouer de la musique programmée https://en.wikipedia.org/wiki/Ismail_al-Jazari#Musical_robot_band

En 1871, Édouard Gand, technicien et ingénieur du textile d'Amiens utilisant le métier Jacquard, propose une machine pour improviser les motifs des tissus, qu'il appelle le transpositeur ou l'improvisateur de tissus.

La révolte des canuts https://fr.wikipedia.org/wiki/M%C3%A9tier_Jacquard

1950 : Alan Turing publie “Computer Machinery and Intelligence”

"Can machines think?"

Transforme la question en

"Can machines do what we (as thinking entities) can do?"

https://www.manhattanrarebooks.com/pages/books/1842/alan-turing/computing-machinery-and-intelligence-in-mind?soldItem=true

Cet article donne naissance au "Test de Turing"

Des domaines élitistes

📚 réservé aux savants / abstraction $ réservé aux possédants

Début de l'histoire de l'IA

Une histoire en dent de scie au gré des désillusions

https://www.technologystories.org/ai-evolution/

1950-65

Un champ immense

1953 : Invention d'un générateur de lettres d'amour par Christopher Strachey

💡Auteur du 1er jeu vidéo 📚Ingénieur dans le National Physical Laboratory anglais https://quod.lib.umich.edu/j/jep/3336451.0014.209?view=text;rgn=main

1958 : Développement du perceptron par Frank Rosenblatt

$🔫 Développé avec des crédits de l'armée US 📚 Professeur de psychologique à l'université de Cornell https://news.cornell.edu/stories/2019/09/professors-perceptron-paved-way-ai-60-years-too-soon

Perceptron est un appareil capable de "voir" grâce à des réseaux de neurones

https://news.cornell.edu/stories/2019/09/professors-perceptron-paved-way-ai-60-years-too-soon

1960 : Desmond Henry crée une machine mécanique qui dessine des formes

📚 Professeur de philosophie à l'université de Manchester 🔫 Utilise du matériel militaire de réforme https://en.wikipedia.org/wiki/Desmond_Paul_Henry

1963 : Joseph E Grimes convertit les "rules of folk tales” de Vladimir Propp en une machine à histoires

📚 Linguiste à la Cornell University

1966 : ELIZA (IBM ) : un chatbot "psychologue" qui échange avec son interlocuteur

$Un projet de IBM https://en.wikipedia.org/wiki/ELIZA

1965 : BUST de l'IA

IA Générative = développement à la marge $ Dépendance directe envers les crédits publics / privés de recherche 📚 Des universitaires, peu d'ordinateurs, coût élevé, absence de langages dédiés, monde anglo-saxon 😖 Résultats inférieurs à la hype, trop limités pratiquement

1965-1985

Développement des systèmes experts et du NLP

1968 Vera Molnár utilise l'ordinateur pour générer des images abstraites épurées

👩 Une femme, enfin. 🎨 Artiste de formation 📚 Autodidacte de l'informatique 📚 Ayant accès aux ordinateurs via son mari chercheur au CNRS https://id.pinterest.com/pin/vera-molnar-144-trapzes-144-trapeziums-1974-computer-graphic-open-series-16-variations-all-sole-copi--499618152404669733/

1971 : Sheldon Klein crée un système d'écriture automatique de nouvelles

📚 Professeur d'informatique à l'université du Wisconsin $ Utilise un langage moderne "Fortran" et des ordinateurs commercialisés "Univac 1108" http://www.silogic.com/Athena/Univac%201108.html

1972 : Harold Cohen crée AARON un programme capable de dessiner de manière autonome

🎨 Artiste de formation 📚 Autodidacte de l'informatique 📚 Projet finalisé à l'université de Stanford 📚 Développé en C, puis en LISP https://computerhistory.org/blog/harold-cohen-and-aaron-a-40-year-collaboration/

1976 : James Meehan's TALE-SPIN : un générateur d'histoires

📚 Professeur à l'université de Yale $ Crédits militaires pour l'analyse de textes $ Utilise le langage LISP sur des machines PDP-10 https://www.slideserve.com/bernad/models-of-creativity-in-language-and-music

1974: BUST car mur de la complexité, logiciels et matériels dédiés pas rentables

📚 Forte présence des universitaires 🎨 Ouverture lente aux artistes $ Prix des ordinateurs très élevés, dépendance aux budgets

1985-2005

Passage à l'échelle

1980: BOOM avec l'émergence de systèmes experts

1980 : Rogue un jeu de donjon développé sur BSD UNIX

$ Développé sur les ordinateurs de l'université de Santa Cruz 📚 Développement poursuivi à l'université de Berkeley ⚖ Code source publié en 1986, une première. https://fr.wikipedia.org/wiki/Rogue_(jeu_vid%C3%A9o)

1981 : David Cope crée EMI (Experiments in Musical Intelligence)

⚖ La machine reproduit son propre style de composition. “I decided I would just go ahead and work with some of the AI I knew and program something that would produce music in my style. I would say ‘ah, I wouldn’t do that!’ and then go off and do what I would do. So it was kind of a provocateur, something to provoke me into composing." 📚 Professeur de composition à l'université de Santa Cruz, autodidacte en informatique

1985 : Ken Perlin invente pour le film TRON une méthode de bruit qui ajoute de la texture

📚 Professeur à la New York University $️ Produit par Disney, leur plus gros budget pour un film avec acteurs à l'époque ⚖ Les Oscars rejettent le film, considérant que les ordinateurs c'est de la triche. https://www.rogerebert.com/reviews/tron-1982

1991 : Les fractales de Benoît Mandelbrot

📚 Mathématicien, écrivain, informaticien, ingénieur, scientifique, économiste $ Salarié d'IBM ⚖ Grand public: images produites sur des PC; Fractint est un des plus vieux gratuiciels maintenus

1996 : Commercialisation du Tamagotchi, génération de formes de vie artificielle

! Un produit commercial vendu à des millions d'exemplaires ⚖Un objet personnel qui passe la barrière de la peur du robot / IA

2002 : SpeedTree, une méthode de génération procédurale d'arbres

⚖ Intégré dans des éditeurs communautaires jeux vidéo $ Vendu à des studios de jeux / films https://forum.neverwintervault.org/t/editing-speedtree-files-spt/723

L'IA commence à vraiment marcher mais c'est mal vu, donc on lui donne d'autres noms

⚖ Passage au grand public en tant que sous-système dans des jeux ou des films $ Le financement public / militaire est relativement faible, ce sont des entreprises qui financent 📚La recherche académique n'est plus la seule à faire de la recherche.

2005-aujourd'hui

Deep Learning et grand public

2005 : Jeu Façade : création d'une histoire interactive réactive : planner réactif

📚Un jeu produit à l'université de Santa Cruz. https://logamers.com/game/facade

2013 : Chatbot Eugene passe le Turing avec 1/3 du jury qui le considère humain

📚Produit par un développeur indépendant https://www.bbc.com/news/technology-27762088

2014 : DeepDream utilise le machine learning pour "augmenter" des images

📚 Un chercheur académique $ Produit par Google ⚖ Recherche ouverte, code ouvert

2016 : Ross Goodwin crée "1 the Road", de la poésie écrite par un ordinateur qui voyage avec lui

$ Embauché par Google

Beaucoup de gens utilisent l'IA, mais la légitimité fait encore question

$ Les investissements de multinationales sont devenus très élevés 📚 La recherche académique est publique et rapide ⚖ Les usages sont devenus généraux

Quelles sont les enjeux actuels ?

Morale / Éthique

Peur du robot / de l'IA Révolte des canuts / Remplacement de l'homme par la machine Crainte ancienne : absence de morale. Cf. les 3 lois de Asimov IA est un outil : il faut craindre ceux qui tiennent le manche

Économiques

Déséquilibres avec des investissements en milliards de $ Matériel, logiciel, data Historiquement, DARPA = Armée US Désormais Microsoft, Google, Facebook

Legitimité artistique

Systèmes connexionistes : pas créatifs Quels sont les droits d'auteurs?

Le pouvoir des memes

Résultats rapides et crédibles, dans une société hyperconnectée Face émergée actuelle : (Deep)Fake / Spoofing Un accès libre aux techniques est-il dangereux ?

Sobriété énergétique

Des datacenters plein de cartes graphiques Impératifs contraires, Tech for good, l'IA va nous optimiser tout ça

Psychologique

Internet devient notre mémoire, IA devient notre imagination Dépendance intellectuelle Il reste à l'humain sa conscience critique...

Quelles évolutions pour les années à venir ?

Économie : investissements massifs

Les fonds d'inverstissement sont déjà partis Studio DeepVoodoo monté par les créateurs de SouthPark MS, GOOG, FB sont en première ligne pour se relancer

Social : augmentation des usages et des tensions

De plus en plus d'Assistance par Ordinateur De manière inégale, persistance des biais sociaux

Artistique : augmentation des Assistants

Dans les éditeurs de texte : Génération de pièces de théâtre, de scripts pour des films ou des émissions de télévision générés par des techniques d'IA générative textuelle. Dans les outils images : modèles d'IA générative entraînés sur des corpus existants pour produire des images qui respectent les conventions et les styles de ce genre de contenu. Idem musique : un style, une mélodie, des arrangements...

Politique : des législations inévitables

Protection des oeuvres existantes Limitation des usages, watermarking obligatoire Incompétence technique des législateurs Influence croissante des lobbies = Favoriser les gros, minoriser les faibles

Technique : améliorations certaines

Plus de temps réel Technologies Portables IA contre IA: détecter les produits de l'IA via de l'IA = ML Anti-spoofing

Un rôle croissant du logiciel libre / opensource

Auditable Optimisable Maintenable Interopérable

Conclusion

Une situation qui va évoluer très rapidement avec des acteurs économiques qui pèsent lourd.