Qu'est-ce que l'IA générative ?

L'IA générative expliquée : comment les modèles qui apprennent des motifs à partir de données produisent du texte, des images, de l'audio et du code originaux en réponse à une invite.

L'IA générative est une catégorie de modèles d'intelligence artificielle qui créent du contenu inédit — texte, images, audio, vidéo ou code — plutôt que de simplement classifier ou prédire à partir de données existantes. Elle apprend les motifs et la structure de son matériau d'entraînement et utilise ces connaissances pour produire des résultats originaux en réponse à une invite. Le terme couvre une vaste famille de techniques, depuis les grands modèles de langage basés sur des transformeurs qui alimentent les chatbots jusqu'aux modèles de diffusion qui propulsent les systèmes de génération d'images à partir de texte.

Comment fonctionne l'IA générative

À un niveau général, un modèle génératif est entraîné sur un grand corpus d'exemples — livres et code pour le texte, images légendées pour la vision, transcriptions et formes d'onde audio pour la parole — et apprend les motifs statistiques qui relient les entrées aux sorties. Pendant l'entraînement, le modèle ajuste en boucle ses paramètres internes pour que ses prédictions correspondent à la réalité, un processus qui peut nécessiter des milliards d'exemples et d'énormes ressources de calcul. Une fois entraîné, le modèle reçoit une invite et génère un nouvel artefact pièce par pièce : un grand modèle de langage prédit le jeton suivant (approximativement, un mot ou un fragment de mot) en tenant compte de tout ce qui précède, tandis qu'un modèle de diffusion affine itérativement un bruit aléatoire pour en faire une image cohérente guidée par une description textuelle.

Par exemple, face à l'invite « un haïku sur le trafic matinal à Tokyo », un modèle de texte va échantillonner un premier mot probable, puis conditionner son choix suivant sur les mots déjà produits, et ainsi de suite jusqu'à ce que le poème semble complet. Le résultat n'est pas extrait d'une base de données ; il est calculé à la volée à partir de motifs appris, c'est pourquoi deux exécutions de la même invite peuvent produire des sorties différentes, mais tout aussi plausibles.

Pourquoi c'est important

L'IA générative transforme la manière dont les individus et les organisations créent, communiquent et travaillent. Elle rédige des e-mails, résume des documents, écrit et explique du code, conçoit des maquettes de produits, compose de la musique et accélère la recherche scientifique en suggérant des molécules et des structures protéiques. Parce qu'un seul modèle peut gérer de nombreuses tâches exprimées en langage naturel, elle réduit le coût de production des premières versions et rend une assistance sophistiquée accessible aux non-spécialistes. En parallèle, elle soulève des questions épineuses sur la paternité des œuvres, le droit d'auteur, les hallucinations, les biais et l'empreinte énergétique des grands entraînements, autant de sujets désormais au cœur des préoccupations des développeurs, des régulateurs et des utilisateurs finaux.

Principaux types de modèles génératifs

  • Grands modèles de langage (LLM) — modèles basés sur des transformeurs, comme ceux des familles GPT, Claude et Llama, qui génèrent du texte et, de plus en plus, interprètent des images et de l'audio.
  • Modèles de diffusion — l'architecture qui sous-tend la plupart des systèmes modernes de génération d'images et de vidéos à partir de texte, notamment Stable Diffusion, DALL·E et Imagen.
  • Réseaux antagonistes génératifs (GAN) — une approche plus ancienne mais toujours influente, dans laquelle un générateur et un discriminateur s'entraînent l'un contre l'autre, largement utilisée pour la synthèse d'images et le transfert de style.
  • Variantes autorégressives et à transformeurs pour l'audio et le code — modèles qui génèrent de la parole, de la musique ou du code source jeton par jeton, comme les systèmes de type Codex et les modèles de génération musicale.

En résumé, l'IA générative est moins un produit unique qu'une nouvelle façon de concevoir des logiciels : au lieu de coder des règles explicites, les développeurs formulent une invite à un modèle entraîné et orientent sa sortie. À mesure que les modèles sous-jacents deviennent plus performants et mieux alignés sur l'intention humaine, leur portée continue de s'étendre à presque tous les domaines de la création et du travail du savoir.

Vous aimerez aussi

Articles connexes