mercredi 24 décembre 2025

Comment fonctionne l'intelligence artificielle generative?

Cet article propose une explication détaillée du fonctionnement de Gemini, un modèle de langage multimodal (Large Multimodal Model - LMM). Notez que bien que nous prenions Gemini comme exemple, les principes fondamentaux décrits ici (Architecture Transformer, Tokenisation, Attention, Embeddings) sont également valables pour la plupart des autres Grands Modèles de Langage (LLM) actuels, tels que ChatGPT (OpenAI), Claude (Anthropic) ou Mistral.

Introduction

Gemini n'est pas magique, c'est une machine à calculer des probabilités extrêmement complexe basée sur l'architecture Transformer[1].

Pourquoi "Transformer" ?
Ce nom vient de sa capacité fondamentale à transformer des données :
  1. Transformation de séquences : À l'origine conçu pour la traduction, il transforme une suite de symboles en entrée (ex: une phrase en français) en une autre suite en sortie (ex: une phrase en anglais).
  2. Transformation de représentations : Contrairement aux anciens modèles linéaires, il modifie l'état de tous les mots simultanément à chaque couche, transformant une représentation brute (le mot isolé) en une représentation riche (le mot contextualisé).

Ce document vous emmène dans les coulisses, de la saisie de votre texte (Input) jusqu'à la réponse générée (Output).


🥑 Le Fil Rouge : L'Exemple de l'Avocat

Tout au long de cette explication, nous utiliserons une phrase clé pour comprendre comment Gemini gère la polysémie (le fait qu'un mot ait plusieurs sens) :

"L'avocat a plaidé le dossier au tribunal."

1. Input : L'Entrée des données

Lorsque vous soumettez une requête à Gemini, le modèle ne "lit" pas le texte comme un humain. Il effectue une transformation préalable.

Ce que Gemini considère comme données d'entrée

  • Le Prompt Utilisateur : Votre question ou instruction directe.
  • L'Historique de la conversation : Les échanges précédents sont inclus pour maintenir la cohérence.
    Note : C'est ici qu'intervient la "Fenêtre de Contexte", la mémoire immédiate du modèle. Gemini 1.5 Pro peut retenir jusqu'à 2 millions de tokens[4].
  • Le Contexte Multimodal : Si vous fournissez une image ou un fichier audio, ces éléments sont convertis en vecteurs numériques compatibles.

1.1 La Tokenisation

Avant d'être traité, le texte est découpé en unités appelées tokens (mots ou parties de mots).

Exemple : "L'intelligence artificielle" → [L'] [intelligence] [artifici] [elle]

1.2 Les Embeddings (L'Espace Latent)

Chaque token est converti en une liste de nombres (un vecteur) pour être placé dans un Espace Latent (un espace mathématique multidimensionnel).

💡 Définitions Clés : Le Contenant et le Contenu

  • L'Espace Latent (Le Territoire) : C'est la carte mentale géante du modèle. C'est un espace abstrait où les concepts (mots, images, sons) sont organisés par sens. Plus deux concepts sont proches sur cette carte, plus ils sont sémantiquement liés.
  • L'Embedding (L'Adresse GPS) : C'est la liste précise de nombres qui définit la position exacte d'un mot dans cet espace. C'est la "carte d'identité mathématique" du mot.

Description précise de cet Espace Latent (Hyper-espace)

Imaginez une bibliothèque géante, non pas rangée par ordre alphabétique, mais par sens.

  1. Des "Nuages" (Clusters) : Les concepts forment des galaxies. Il y a un nuage pour la cuisine (sel, cuire), un autre pour la technologie (wifi, écran).
  2. Une Géométrie Logique (Arithmétique Sémantique) : Les relations de sens deviennent des vecteurs géométriques.
    • Le chemin de France vers Paris est parallèle à celui de Japon vers *Tokyo* (Pays → Capitale).
    • Exemple célèbre : On peut littéralement faire des mathématiques avec le sens des mots :
      Vecteur(Roi) - Vecteur(Homme) + Vecteur(Femme) ≈ Vecteur(Reine).
  3. Proximité = Similarité : La distance entre deux points (souvent mesurée par l'angle/cosinus) indique leur degré de synonymie.

🔎 Zoom Pédagogique : C'est quoi une "Dimension" ?

Dire que l'espace a "4096 dimensions" peut sembler abstrait. Pour comprendre, imaginez la fiche de personnage d'un jeu vidéo ou une recette de cuisine :

  • Dans un jeu vidéo : Un personnage est défini par des jauges : Force, Vitesse, Magie, Intelligence. Ici, on a 4 dimensions.
  • Dans l'IA : Chaque mot est noté sur des milliers de "jauges" invisibles et abstraites.
    • Une dimension pourrait (théoriquement) capter le niveau de "Royauté".
    • Une autre le niveau de "Féminité".
    • Une autre si c'est un "Objet" ou une "Personne".
    • Une autre si le mot est "Pluriel" ou "Singulier".

Exemple simplifié (sur 3 dimensions imaginaires) :

  • Mot "Roi" : [Royauté: 0.99, Féminité: 0.01, Humain: 0.99]
  • Mot "Reine" : [Royauté: 0.99, Féminité: 0.99, Humain: 0.99]
  • Mot "Table" : [Royauté: 0.00, Féminité: 0.00, Humain: 0.00]

En réalité, les dimensions de l'IA sont "polysemantiques" (elles codent plusieurs concepts à la fois) et il y en a des milliers, ce qui permet une précision de sens infinie.

Zoom Technique : Dimensions, Construction et Langues

  • Dimensions vertigineuses : Alors que notre monde physique a 3 dimensions, l'Espace Latent de Gemini en possède des milliers (3 072 pour Nano, 4 096 pour Pro, 16 384+ pour Ultra).
  • Construction : L'espace est construit par association (apprentissage contrastif). Si "chat" et "félin" apparaissent souvent avec les mêmes mots, le modèle rapproche mathématiquement leurs vecteurs.
    Référence : Travaux de Tomas Mikolov (Word2Vec, 2013) [2].
  • Un Espace Multilingue : L'espace est universel. Les mots "Chat" (FR), "Cat" (EN) et "Neko" (JP) atterrissent dans la même zone conceptuelle.
  • Matrice et Unicité : Bien que les vecteurs de "Chat" et "Cat" soient proches géométriquement, ils possèdent chacun leur propre ligne unique dans la matrice d'embeddings. Ce sont deux entrées distinctes.

La Multimodalité Native (Texte, Image, Son)

Gemini projette tout au même endroit : le vecteur du mot "Chat", le vecteur d'une photo de chat et le vecteur du son d'un miaulement atterrissent quasiment au même point.

Application Concrète (Étape 0) : Le Vecteur Initial d'"Avocat"

Au départ, le mot "avocat" est représenté par son embedding $x_{avocat}$. Ce vecteur est statique et ambigu. Il contient mathématiquement un mélange : 50% "fruit vert" + 50% "homme de loi".

Zoom : D'où vient ce vecteur $x$ ?
Il provient de la Matrice d'Embeddings, figée après l'entraînement. Comme le modèle a vu le mot "avocat" à côté de "mangue" et de "juge", son vecteur initial se situe à mi-chemin entre ces deux concepts dans l'Espace Latent.

2. L'Entraînement et les Données (La "Nourriture" du Modèle)

Pour construire cet espace sémantique et apprendre les règles du langage, le modèle doit être entraîné sur une quantité massive de données.

Le Processus : La Rétropropagation

Au début, la matrice sémantique est remplie de valeurs aléatoires (le modèle ne sait rien). L'entraînement consiste à ajuster ces milliards de paramètres via la rétropropagation (Backpropagation) :

  1. Le modèle masque un mot dans une phrase (ex: "Le chat boit du [MASQUE]").
  2. Il essaie de deviner. S'il se trompe (il dit "voiture"), il reçoit un signal d'erreur.
  3. Il corrige légèrement ses paramètres internes (dont la matrice d'embeddings) pour que le vecteur "chat" se rapproche de "lait" et s'éloigne de "voiture".
  4. Ce cycle est répété des trilliards de fois.

Quelles données sont utilisées ?

Gemini est "nourri" avec un mélange gigantesque de textes et de médias :

  • Le Web Public : Des bases de données comme Common Crawl qui archivent une grande partie d'internet.
  • Livres et Encyclopédies : Des milliers de livres numérisés et Wikipedia pour la culture générale.
  • Code Informatique : Des dépôts comme GitHub pour apprendre la logique et la programmation.
  • Données Multimodales : Vidéos YouTube, images légendées, fichiers audio.

⚠️ La Zone Grise : Paywalls et Copyright

Une question fréquente concerne l'accès aux contenus payants (comme les archives complètes de Nature ou Pour la Science).

  • Données Publiques & Open Access : Tout ce qui est librement accessible (Open Access) est ingéré.
  • Contenu Payant : En théorie, les robots d'indexation ne peuvent pas passer les "paywalls" (murs payants). Le modèle ne lit donc pas l'intégralité des articles payants, sauf si Google a signé un accord de partenariat spécifique avec l'éditeur.
  • La Nuance : Le modèle a souvent accès aux résumés (abstracts), aux métadonnées, ou aux versions de l'article qui ont été partagées ailleurs sur le web public.

À quelle fréquence le modèle apprend-il ?

Contrairement à un humain, le modèle ne se met pas à jour en temps réel.

  • Pré-entraînement (Rare) : Tous les quelques mois/années. C'est la création du cerveau, très coûteuse.
  • Alignement (Régulier) : Mises à jour hebdomadaires ou mensuelles pour ajuster le comportement.
  • Actualité (Temps Réel) : Jamais par entraînement. Le modèle utilise des outils externes (Google Search) pour lire les infos du jour sans modifier ses neurones.

Le Raffinage : L'Intervention Humaine (Post-Entraînement)

🛠️ Les étapes de correction (Safety & Style)

Une fois le modèle "intelligent" mais brut, il subit :

  • SFT (Supervised Fine-Tuning) : Apprentissage des bonnes manières par l'exemple.
  • RLHF (Feedback) : Notation des réponses pour affiner la pertinence.
  • Red Teaming : Des équipes attaquent le modèle pour trouver et corriger ses failles de sécurité avant le lancement.

Les 4 Modes d'Apprentissage (La Recette)

Il existe principalement quatre grands modes d'apprentissage, et un modèle comme Gemini les utilise presque tous à différentes étapes de sa vie :

1. L'Apprentissage Auto-supervisé (Self-Supervised Learning)

  • C'est quoi ? C'est la méthode reine pour les LLM. Le modèle apprend sans étiquettes humaines, directement à partir des données brutes.
  • Le principe : Le système crée lui-même ses propres exercices. Il prend un texte, cache une partie (un mot), et essaie de la deviner. La "réponse" est déjà dans le texte d'origine.
  • Pour Gemini : C'est l'étape du Pré-entraînement. En lisant tout internet et en jouant à "deviner le mot masqué", il construit sa compréhension du monde et de la grammaire.

2. L'Apprentissage Supervisé (Supervised Learning)

  • C'est quoi ? La méthode classique. On fournit au modèle des exemples clairs : une Entrée (Question) et la Sortie attendue (Réponse idéale). C'est comme un professeur qui donne un corrigé.
  • Le principe : Le modèle compare sa réponse à la réponse idéale et corrige ses erreurs mathématiques pour s'en rapprocher.
  • Pour Gemini : C'est l'étape du SFT (Supervised Fine-Tuning). Des humains écrivent des dialogues parfaits pour apprendre au modèle à se comporter en assistant utile, et pas juste en "compléteur de phrases".

3. L'Apprentissage par Renforcement (Reinforcement Learning - RL)

  • C'est quoi ? Apprendre par essais-erreurs, guidé par une "récompense" ou une "punition". C'est la méthode du dressage (le sucre ou le bâton).
  • Le principe : Le modèle génère une réponse. Un "juge" (humain ou autre IA) donne une note. Le modèle ajuste ses paramètres pour maximiser cette note à l'avenir.
  • Pour Gemini : C'est l'étape du RLHF (Reinforcement Learning from Human Feedback). C'est crucial pour l'alignement : s'assurer que le modèle est poli, ne ment pas trop et refuse les demandes dangereuses.

4. L'Apprentissage Non Supervisé (Unsupervised Learning)

  • C'est quoi ? On donne des données au modèle sans aucune indication, et il doit trouver des structures ou des groupes (clusters) tout seul.
  • Le principe : C'est de l'exploration pure. "Tiens, ces images se ressemblent, je vais les mettre dans le même groupe".
  • Pour Gemini : C'est utilisé implicitement lors de la création de l'espace latent (les embeddings), où le modèle regroupe naturellement les concepts proches (chat/chien) sans qu'on lui dise explicitement qu'ils sont des animaux.
Transition : Pourquoi les Embeddings ne suffisent pas ?
Les vecteurs d'Embeddings que nous venons de voir sont statiques : le vecteur du mot "Avocat" est le même, qu'on parle du fruit ou du métier (c'est une définition de dictionnaire).
Pour comprendre une phrase, il faut lever cette ambiguïté. C'est le rôle de l'étape suivante, l'Attention, qui va "regarder" les mots voisins pour affiner ce sens en temps réel.

3. Le Modèle : Le Cœur du Réacteur (L'Attention)

Gemini repose sur l'architecture Transformer. Son but est de calculer des probabilités en regardant tous les mots simultanément.

Le Mécanisme d'Attention (Self-Attention)

C'est la formule qui permet au modèle de créer les liens entre les mots (et lever les ambiguïtés) :

$$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$

🔎 Décryptage de la Formule

1. Le Lien Géométrique ($QK^T$ - Produit Scalaire) :
En mathématiques, le produit scalaire mesure l'angle entre deux vecteurs. Si le vecteur Question ($Q$) et le vecteur Clé ($K$) pointent dans la même direction dans l'espace sémantique, leur produit est élevé : le modèle comprend que les mots sont liés.

T (Transposée) : On pivote la matrice pour permettre la multiplication.

$\sqrt{d_k}$ (Mise à l'échelle) : On divise par la racine carrée de la dimension ($d_k$) pour éviter d'avoir des chiffres trop grands qui bloqueraient l'apprentissage.


2. La Normalisation (Softmax) :
Cette fonction est essentielle pour transformer des scores bruts en pourcentages (dont la somme fait 100%).

$$ \text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}} $$
  • $e^{z_i}$ (L'Exponentielle) : Rend tous les chiffres positifs et accentue les écarts (les grands scores deviennent énormes, les petits s'effacent).
  • $\sum$ (La Normalisation) : Divise par la somme totale pour obtenir une distribution de probabilités.

Pour chaque mot (vecteur $x$), le modèle génère trois nouveaux vecteurs via des matrices apprises (des grilles de poids $W$). Ces vecteurs sont calculés ainsi :

$$ Q = x \cdot W_Q \quad | \quad K = x \cdot W_K \quad | \quad V = x \cdot W_V $$
  • Q (Query) - La Question : Transforme le mot en une sonde active.
    Exemple : $Q_{avocat}$ demande : "Suis-je un fruit ou un juriste ? Y a-t-il des indices autour ?"
  • K (Key) - L'Étiquette : Crée une étiquette publique pour le mot.
    Exemple : $K_{plaidé}$ affiche : "Je suis une action juridique."
  • V (Value) - Le Contenu : C'est la "charge utile" sémantique qui sera transférée.
    Exemple : Pour "Plaidé", $V$ contient le concept "Justice" prêt à être transféré pour colorer le sens d'Avocat.
💡 Nuance Technique : Différence entre $x$ et $V$
On pourrait penser que $V$ est identique au vecteur d'origine $x$. Ce n'est pas le cas :
  • $x$ (L'Embedding) : C'est l'identité complète et brute du mot dans le dictionnaire. Il est très lourd et contient toutes les informations possibles (polysémie totale, étymologie, grammaire...).
  • $V$ (La Valeur) : C'est une sélection filtrée. Le modèle utilise la matrice $W_V$ pour extraire de $x$ uniquement l'information pertinente à partager à ce moment précis (ex: garder le concept "Justice" mais ignorer l'information "verbe du 1er groupe").

🧠 Zoom Global : Architecture et Apprentissage

1. L'Intelligence par Étages (Le Rôle des Couches) :
Le calcul d'attention ne se fait pas une seule fois. Les matrices sont différentes et uniques à chaque couche (étage) du réseau. Cela permet de construire le sens progressivement :

  • Couches Basses (1 à 5) : Analyse Grammaticale (Syntaxe).
  • Couches Intermédiaires (6 à 20) : Analyse Sémantique (Sens et Ambiguïtés).
  • Couches Hautes (21+) : Analyse Abstraite (Style, Ton, Logique).

2. Combien de couches ? (Profondeur) :
Bien que les chiffres exacts soient souvent secrets, voici les estimations :

  • Gemini Nano : ~18 à 32 couches.
  • Gemini Pro : ~64 à 80 couches.
  • Gemini Ultra / GPT-4 : ~96 à 128 couches.

Au-delà de 100 couches, les gains de performance diminuent fortement par rapport au coût de calcul.


3. Tout évolue en même temps (La Rétropropagation) :
Lors de l'apprentissage, le modèle met à jour l'ensemble de ses paramètres simultanément :

  • Les Matrices ($W_Q, W_K, W_V$) : Elles sont ajustées pour mieux "cibler" les relations entre les mots.
  • L'Espace Sémantique (Embeddings $x$) : Les coordonnées des mots elles-mêmes changent ! Si le modèle découvre que "Chat" et "Félin" sont souvent interchangeables, il va physiquement rapprocher leurs vecteurs.

4. Output : La Génération de la sortie (Texte)

Une fois que le mécanisme d'attention a enrichi le contexte, le modèle doit "parler".

Le Processus de Prédiction : "L'avocat a plaidé le dossier au..."

Le modèle doit prédire le mot suivant le dernier token "**au**".

  1. Le Vecteur Final (La Synthèse) : Le modèle calcule le vecteur du dernier mot ($z_{au}$) à la sortie de la dernière couche.
    • Grâce à l'attention, ce vecteur a "absorbé" les informations de "plaidé", "dossier", "avocat".
    • Il contient l'instruction mathématique : "Je suis un lieu, masculin singulier, où l'on plaide des dossiers."
    Pourquoi pas juste un calcul ? (L'échelle de l'Abstraction)
    Si l'on ne faisait qu'une seule couche, le modèle ne comprendrait que les relations de surface. Les couches successives (32 à 96) permettent de construire le raisonnement : d'abord la grammaire, puis le sens, puis le style et la logique sociale.
  2. Les Logits (Projection) : Ce vecteur est comparé à tout le dictionnaire (via la matrice de dé-tokenisation).
    Note : Pourquoi pas une simple liste ? Parce qu'un seul chiffre ne suffit pas. Le vecteur $z$ de 4096 dimensions est comparé aux vecteurs de 4096 dimensions de chaque mot candidat pour une correspondance riche.
  3. Le Softmax (Probabilités) : Les scores sont transformés en pourcentages via la formule Softmax.
    • tribunal : 85%
    • palais : 12%
    • bureau : 2%
  4. La Sélection (Sampling) : Le modèle choisit le mot final selon la température (Basse = Logique, Haute = Créatif).

5. Synthèse Pas à Pas (Niveau Lycée)

Résumé simplifié pour comprendre comment le système devine le dernier mot de : “L’avocat a plaidé le dossier au …”

Étape 1 : Le Découpage

Le texte est découpé en unités appelées tokens.

Étape 2 : L'Espace Latent (Les vecteurs x)

Chaque token a des coordonnées dans l’espace sémantique. À ce stade, on a les vecteurs $x_{avocat}$, $x_{plaide}$, $x_{dossier}$... autant de x que de tokens.

Étape 3 : Le Mécanisme d'Attention (Calcul de z)

Pour chaque mot, on crée un vecteur qui contient les autres mots de la phrase pondérés par la force de leur lien. Pour cela, chaque vecteur x est transformé en 3 vecteurs Q, K, V :

  • Q = Query : "Qui suis-je ?" (ex: Q_avocat demande "suis-je un fruit ou un juriste ?").
  • K = Key : "Quelle est mon étiquette ?" (ex: K_plaidé = "Action juridique").
  • V = Value : "Vecteur simplifié pour l’opération".

Pour chaque couple de mots, la probabilité qu’ils soient reliés est calculée :

  • Score d’attention (avocat, plaidé) → 0,85
  • Score d’attention (avocat, dossier) → 0,1
  • Score d’attention (avocat, au) → 0,01

Le calcul de z (L'Hyper-mot) :
On crée un nouveau vecteur qui contient tous les mots du contexte :

$$ z_{avocat} = 0.85 \times v_{plaide} + 0.1 \times v_{dossier} + ... $$

Étape 4 : La Prédiction du mot suivant

Maintenant, le vecteur du dernier mot, $z_{au}$, est enrichi de tout le contexte de la phrase.

  1. Il lance une requête finale $Q_{au}$ : "Je suis un lieu, masculin singulier, où l'on plaide des dossiers."
  2. Il cherche dans tout le dictionnaire la valeur la plus probable :
    • tribunal : 85%
    • palais : 12%
    • bureau : 2%
    • marché : 0.0001%
  3. Le mot est ensuite sélectionné selon la température.

6. Focus : La Génération d'Images (Le Cerveau vs La Main)

Si Gemini utilise le même "cerveau" (l'Espace Latent et l'Attention) pour comprendre le texte et l'image, il utilise une "main" différente pour les créer.

La Distinction Clé :
  • Le Texte (Autorégressif) : C'est séquentiel. Le modèle écrit mot après mot, de gauche à droite, comme on enfile des perles sur un fil. Il prédit ce qui vient "après".
  • L'Image (Diffusion) : C'est global et itératif. Le modèle ne dessine pas pixel par pixel de haut en bas. Il part d'un chaos total et le sculpte pour faire émerger une vision.

Comment fonctionne la Diffusion ?

Imaginez que vous deviez dessiner un chat, mais que vous partiez d'une feuille de papier remplie de neige télévisuelle (bruit aléatoire).

  1. L'Intention (Le Vecteur) : Le modèle projette votre demande ("Un chat bleu") dans l'espace latent. Il sait mathématiquement à quoi ressemble le concept "Chat bleu" grâce à ses embeddings.
  2. Le Bruit (Le Marbre) : Il génère une image composée à 100% de bruit aléatoire (des pixels de toutes les couleurs mélangés).
  3. Le Denoising (La Sculpture) : En plusieurs étapes (steps), le modèle regarde ce bruit et se demande : "Si je devais trouver un chat là-dedans, quels pixels devrais-je modifier ?". Il utilise le concept "Chat" de l'espace latent pour guider cette correction.
  4. L'Émergence : Il retire progressivement le bruit. À chaque étape, l'image devient plus nette, passant d'un brouillard coloré à une forme floue, puis à une image photoréaliste précise.

7. Les Spécificités de Gemini : Architecture et Données

Pourquoi 4096 dimensions pour le modèle Pro ?

Le choix de 4096 dimensions pour l'espace latent de Gemini Pro n'est pas un hasard. C'est un optimum mathématique et matériel :

  • L'efficacité matérielle (TPU) : Les puces de Google (TPU) sont optimisées pour calculer des matrices dont les tailles sont des puissances de 2 ($2^{12} = 4096$). Cela maximise la vitesse de calcul.
  • Le compromis idéal : C'est le point d'équilibre actuel. Moins de dimensions rendraient le modèle "aveugle" aux nuances subtiles. Plus de dimensions (comme les 16k+ de l'Ultra) rendraient le modèle trop lent et coûteux pour une utilisation grand public standard.

Gemini Pro vs Gemini Ultra : Le saut qualitatif

Si Gemini Pro est le "couteau suisse", Gemini Ultra est le "chirurgien". Qu'apporte-t-il de plus ?

  • Profondeur de Raisonnement : Ultra possède beaucoup plus de couches et de paramètres. Il ne se contente pas d'associer des idées, il peut maintenir une chaîne de logique complexe sur une plus longue durée (utile pour les maths ou le code).
  • Moins d'Hallucinations : Grâce à sa taille, il possède une "résolution" plus fine de son espace sémantique, ce qui réduit les confusions entre concepts proches.
  • Multimodalité Complexe : Ultra est capable d'analyser des nuances dans des vidéos ou des images que Pro pourrait manquer (ex: lire un petit texte flou dans une vidéo).

Les Données "Cachées" : Les Accords Commerciaux

Nous avons vu que le modèle apprend via le web public, mais pour être performant, Google enrichit cette diète avec des données exclusives via des accords commerciaux :

La Data "Premium" :
Contrairement aux données brutes du web (souvent bruyantes), Google paie pour accéder à des données structurées et de haute qualité :
  • Reddit : Google a signé un accord pour accéder aux conversations humaines en temps réel, crucial pour apprendre le langage naturel et familier.
  • Éditeurs de Presse : Des accords (souvent confidentiels ou via Google News Showcase) permettent d'accéder à des articles de fond pour améliorer la qualité factuelle et le style rédactionnel.
  • Code (Stack Overflow) : Des partenariats permettent d'entraîner le modèle sur des problèmes de code résolus et validés par des humains.

✨ Zone d'Expérimentation Interactive

Testez la logique de Gemini directement ici. Vous avez le choix entre le mode simulation (par défaut) ou le mode réel en entrant votre clé API.

metaphor ✨ Créateur d'Analogies

8. Éducation et Intelligence Artificielle générative

L'accès des plus jeunes à des modèles capables de "tout faire" (rédiger, résumer, calculer) soulève une crainte légitime : celle de la paresse intellectuelle. Pourtant, bien utilisée, l'IA peut devenir un levier puissant pour développer les compétences cognitives supérieures.

🎓 Comment utiliser l'IA pour ne pas devenir "bête" ?

L'objectif est de passer d'une logique de délégation ("Fais le devoir à ma place") à une logique de collaboration exigeante. Voici 3 méthodes pour développer l'esprit critique, la synthèse et la créativité :

  1. L'Esprit Critique : La Méthode du "Correcteur Inversé"
    Au lieu de demander à l'IA de rédiger une dissertation, demandez-lui de générer un texte sur un sujet que vous avez étudié, mais en y insérant volontairement 3 erreurs subtiles ou des biais de raisonnement.
    Le défi pour l'élève : Repérer les erreurs, expliquer pourquoi ce sont des erreurs, et corriger l'IA. Cela force une lecture active et une vérification des faits.
  2. L'Esprit de Synthèse : L'IA comme "Sparring Partner" Socratique
    Utiliser l'IA non pas pour donner des réponses, mais pour questionner. L'élève soumet son brouillon ou ses idées à l'IA avec la consigne : "Agis comme un professeur exigeant. Ne me donne pas la solution, mais pointe les faiblesses de mon argumentation et pose-moi des questions pour m'aider à clarifier ma pensée."
    Le gain : L'élève doit reformuler, préciser et synthétiser sa propre pensée pour répondre aux objections de la machine.
  3. La Créativité : L'Hybridation "Centaure" (Modèle Kasparov)



    Origine : Garry Kasparov a théorisé qu'un humain moyen assisté d'une machine (Centaure) battait à la fois le meilleur humain seul et la meilleure machine seule.
    Pour l'école : utiliser l'IA pour la divergence (générer 50 idées, 10 plans possibles), mais garder l'humain maître de la convergence (choisir, assembler, et rédiger le style final).
    Règle d'or : L'IA propose, l'humain dispose.

🇫🇷 Politiques Publiques et Stratégies Mondiales

Comment les États réagissent-ils ?

  • La Stratégie Française (MIA / Albert) : La France mise sur la souveraineté et la remédiation. Des outils comme MIA Seconde analysent les erreurs des élèves pour proposer des exercices de rattrapage personnalisés, tandis que le projet Albert aide les professeurs à préparer leurs cours, le tout en gardant les données en France.
  • Le Modèle de Singapour : Souvent cité en exemple ("Tech-enabled, Human-led"). Le programme "AI for Fun" propose 10 heures de modules obligatoires sur l'IA et le codage pour tous les élèves du primaire et du secondaire à partir de 2025/2026. Ils n'interdisent pas l'IA, mais forment massivement les enseignants et intègrent l'IA comme un tuteur personnalisé dans le cursus officiel.

🚫 Le Débat : Interdire ou Adapter ?

Face aux risques, quelle politique adopter à l'école ?

  • Sanctuariser les Bases (Devoirs Surveillés) : Il est crucial de maintenir des évaluations "stylo-papier" sans aucune technologie. On ne peut pas utiliser efficacement une calculatrice si on ne comprend pas l'addition. De même, on ne peut pas demander à l'IA de résumer un texte si l'on ne sait pas résumer soi-même, car on serait incapable de juger si le résultat est pertinent ou s'il a oublié l'essentiel.
  • L'IA Éducative "Sécurisée" : Plutôt que d'utiliser des modèles grand public (qui collectent des données), l'avenir est aux IA éducatives souveraines (type "Aristote" ou des instances privées) qui respectent le RGPD, ne s'entraînent pas sur les données des élèves et sont calibrées pour la pédagogie (ne pas donner la réponse tout de suite).
  • L'Interdiction Totale : Souvent jugée contre-productive car elle crée une fracture numérique. Les élèves utiliseront l'IA chez eux de toute façon. L'école doit donc enseigner l'usage éthique et critique plutôt que l'abstinence.

9. Conclusion : Capacités, Limites et Augmentation

En résumé, Gemini incarne une révolution technologique rendue possible par la convergence de deux découvertes fondamentales qui ont radicalement augmenté la pertinence des modèles :

  • La Géométrie Sémantique (Embeddings) : La capacité de transformer des concepts abstraits en objets mathématiques manipulables, permettant de calculer le sens.
  • Le Mécanisme d'Attention : La capacité de tisser des liens dynamiques entre ces concepts pour lever les ambiguïtés et comprendre les nuances contextuelles avec une précision inédite.

Ce qu'il permet de faire (Forces)

  • Multimodalité Native : Il ne se contente pas de lire ; il "voit" et "entend". Il peut analyser une vidéo, décrire une image ou commenter un fichier audio avec la même aisance que du texte, car tous ces signaux sont projetés dans le même espace latent.
  • Génération d'Images : Au-delà de la compréhension, Gemini peut créer. Il génère des images photoréalistes à partir de descriptions textuelles en transformant les concepts de son espace latent en pixels via la diffusion.
  • Analyse Massive (Context Window) : Grâce à sa fenêtre de contexte de plusieurs millions de tokens, il peut digérer des livres entiers, des bases de code complexes ou de longues vidéos en une seule fois pour répondre à des questions précises.
  • Polyvalence : Traduction, résumé, création de code, rédaction créative et raisonnement logique sont traités par le même moteur probabiliste unifié.

Ses Limitations (Points de vigilance)

  • Hallucinations : Comme tout LLM, Gemini peut inventer des faits de manière très convaincante. Il prédit le mot probable, pas nécessairement le mot vrai.
  • Absence de Conscience : Malgré l'illusion de raisonnement, il ne "comprend" pas le monde au sens humain. Il manipule des symboles mathématiques dans un espace latent. Il n'a ni sentiments, ni croyances.
  • Biais : Ses réponses dépendent des données sur lesquelles il a été entraîné. Il peut refléter les stéréotypes présents sur internet.
  • Logique Stochastique : Il peut parfois échouer sur des tâches de logique pure ou de mathématiques simples si la réponse ne découle pas d'un schéma probabiliste clair.
  • Droit d'Auteur et Propriété Intellectuelle : Il existe un risque juridique lorsque le modèle reproduit des contenus protégés (comme du code informatique spécifique ou des textes d'auteurs) qu'il a assimilés durant son entraînement, les rendant potentiellement accessibles à tous sans respecter les licences d'origine.

Impacts Sociétaux : Risques et Opportunités

L'adoption massive de ces modèles soulève des questions fondamentales sur notre rapport au travail et à la connaissance.

  • Les Risques :
    • Paresse Intellectuelle : Le risque de déléguer systématiquement la réflexion, la rédaction ou la synthèse à la machine, entraînant une atrophie de l'esprit critique et des capacités d'apprentissage.
    • Remplacement de Métiers : L'automatisation de tâches cognitives (rédaction, traduction, codage simple, service client) menace certains emplois, nécessitant une adaptation rapide des compétences.
    • Dépendance et Uniformisation : Une utilisation excessive peut lisser la créativité humaine et créer une dépendance aux fournisseurs de ces technologies.
  • Les Opportunités :
    • Productivité Décuplée : L'IA agit comme un "exosquelette pour l'esprit", permettant de traiter les tâches fastidieuses pour se concentrer sur la stratégie et la créativité pure.
    • Démocratisation des Compétences : Elle permet à des non-experts de coder, de créer des images ou de rédiger dans des langues qu'ils ne maîtrisent pas.
    • Nouveaux Horizons : Accélération de la recherche scientifique, éducation personnalisée (tuteurs IA) et émergence de nouveaux métiers (Prompt Engineer, Auditeur d'IA).

💼 Zoom Métiers : Les nouvelles carrières de l'IA

  • Prompt Engineer (Ingénieur de Prompt) : Ce n'est pas seulement savoir poser une question. C'est l'art technique de concevoir des instructions complexes (les "prompts") pour guider le modèle vers un résultat précis. Cela implique de comprendre comment le modèle "pense", de gérer le contexte, de minimiser les hallucinations et d'optimiser les formats de sortie.
  • Auditeur d'IA (AI Auditor) : Avec la montée des régulations (comme l'AI Act en Europe), ce métier devient crucial. L'auditeur teste les modèles pour détecter les biais discriminatoires, les failles de sécurité et les risques de désinformation avant leur déploiement. Il garantit que l'IA est éthique, légale et fiable.

Comment Gemini dépasse ses limites (Augmentation)

Pour pallier ces faiblesses, le modèle est souvent "augmenté" par des systèmes externes :

  1. Grounding (Ancrage avec Google Search) : Pour lutter contre les hallucinations et l'obsolescence des données, Gemini peut interroger le moteur de recherche Google. Il vérifie ses faits en temps réel et cite ses sources.
  2. Utilisation d'Outils (Tool Use / Function Calling) : Pour les mathématiques ou la logique stricte, Gemini ne "calcule" pas de tête (ce qui est risqué). Il peut utiliser une calculatrice ou écrire et exécuter du code Python pour obtenir un résultat exact, qu'il insère ensuite dans sa réponse.
  3. RAG (Retrieval-Augmented Generation) : Pour les connaissances d'entreprise, on connecte Gemini à une base de documents privée. Avant de répondre, il va "chercher" les passages pertinents dans cette base et les utilise comme contexte pour générer une réponse fiable.

L'Avenir : Au-delà des LLM ?

Les modèles actuels (y compris Gemini) sont souvent considérés comme des "Systèmes 1" (réflexe, instinctifs, rapides). L'avenir de l'IA se dirige probablement vers des systèmes plus robustes :

  • Le Système 2 (Raisonnement) : Des architectures capables de "réfléchir" avant de répondre, de planifier des actions et de vérifier leurs propres hypothèses (comme le cerveau humain lorsqu'il résout un problème complexe).
  • Modèles du Monde (World Models) : Des chercheurs comme Yann LeCun (Meta) proposent des architectures (JEPA) qui ne se contentent pas de prédire le mot suivant, mais qui apprennent une représentation physique et logique du monde pour comprendre les conséquences de leurs actions [5].

10. Références & Ressources

Publications Scientifiques Majeures

  1. "Attention Is All You Need" (Vaswani et al., 2017) [ArXiv]
    L'invention du Transformer.
  2. "Efficient Estimation of Word Representations in Vector Space" (Mikolov et al., 2013) [ArXiv] [PDF]
    La base des embeddings et de l'arithmétique vectorielle.
  3. "Deep Reinforcement Learning from Human Preferences" (Christiano et al., 2017) [ArXiv]
    Les fondations du RLHF (Alignement).
  4. "Gemini 1.5 Technical Report" (Google DeepMind, 2024) [PDF Officiel]
    Détails sur l'architecture multimodale et le contexte long.

Ouvrages & Vidéothèque

samedi 16 août 2025

Qu'il y a-t-il à l'intérieur d'un trou noir?

Jean-Pierre Luminet, astrophysicien, directeur de recherche au CNRS, nous éclaire de façon remarquable sur les trous noirs dans son livre : "Les trous noirs en 100 questions", 2024. 

Un trou noir est une concentration de matière et d'énergie si importante qu'aucune particule matérielle ni aucune lumière ni rayonnement ne peut en sortir. Autrement dit, c'est un puits de gravité dans l'espace temps, tellement incurvé que rien ne peut en sortir. On ne peut donc pas le voir directement, ni voir ce qu'il y a à l'intérieur. 

Il y en aurait un nombre stupéfiant : 40 milliards de milliard ! Il y en aurait de tailles variées. Un petit trou noir autour duquel tourne l'étoile V723 Moon pèserait 3,04 masses solaires et aurait un rayon (horizon des événements) de 9km seulement; il aurait été formé par l'effondrement d'une étoile sur elle-même; c'est ce qu'on appel un trou noir stellaire. D'autres sont incroyablement plus grands. Le trou noir central de la galaxie IC101 pèserait entre 40 et 200 milliards de masses solaires!
Le trou noir au centre de notre galaxie de la Voie Lactée est Sagittarius A*, il est situé à 26 000 années lumières de la terre, il pèse 4,152 millions de masses solaires et a un rayon ne dépassant pas 1 Unité Astronomique (distance terre-soleil : 150 millions de kilomètres). 

Qu'il y a-t-il à l'intérieur des trous noirs? Ne pouvant pas les observer directement, les physiciens ne peuvent que spéculer et modéliser ce qu'il s'y passe. La théorie de la relativité générale d'Einstein permet de déduire, pour un trou noir statique, que la matière et l'énergie s'y concentre un seul point de densité infinie, créant ainsi une singularité gravitationnelle dans l'espace temps. De façon étonnante et amusante, dans un trou noir en rotation, la singularité de densité infinie est un anneau (voir la singularité annulaire d'un trou noir de Kerr ci dessous) 


L'idée de voir la matière et l'énergie s'entasser dans un point infinitésimal constitue une absurdité pour les physiciens. Ils considèrent que les singularités gravitationnelles sont plutôt des zones de l'espace temps indéfinies, correspondant aux limites mathématiques de la relativité générale, et pouvant être perçues comme une pathologie de la théorie. Les physiciens sont à la recherche d'une théorie plus générale qui évitent les singularités, garantissant ainsi un minimum de cohérence mathématique et physique. 

La théorie d'Einstein-Cartan couple un terme de torsion à la courbure, permettant d'éliminer la singularité et la remplaçant par un rebond de la matière/énergie sur une distance spatiale courte. Les théories de gravitation quantique soulèvent quant à elles beaucoup d'espoir: la théorie de la gravitation quantique à boucle remplace la singularité par un rebond quantique, tandis que la théorie des cordes remplace la singularité par un agglomérat de cordes entremêlées. 

Les trous noirs structurent notre univers, comme en témoigne la découverte que les galaxies tournent autour de trous noirs géants. 

Plus impressionnant encore, les trous noirs pourraient aussi relier leur espace temps à une autre partie de l'espace temps de notre univers, ou à un autre univers, à travers les trous de ver.




Les trous noirs représentent certainement un sujet d'étude très riche, qu'un article de blog ne peut qu'effleurer.  





vendredi 1 septembre 2023

Un portion sauvage de rivière, par Théophile Gautier

Cette portion de la Marne, que la batellerie ne fréquente plus, trouvant plus court et commode de prendre le canal de Saint-Maur, est retournée doucement à l'état sauvage. On dirait une de ces rivières sans nom qui coulent dans les solitudes à travers les régions encore inexplorées. Les chemins de halage, devenus inutiles, se sont peu à peu effacés, et n'étant plus rasées par les cordes de traction, toutes les folles herbes aquatiques s'en sont données à cœur joie. Dans une familiarité charmante, que rien de trouble, l'eau et la rive se confondent, empiétant l'une sur l'autre; l'eau creuse de petites anses, la rive pousse des promontoires mignons. Aux graminées qui descendent se mêlent les joncs qui montent. Les aulnes, les osiers verdoient sur la berge indécise, au dessous des saules penchant leurs troncs noueux. Plus loin, le pied dans l'herbe humide, les peupliers dressent leurs fines arrêtes aux feuilles toujours émues; les grands arbres versent leur ombre et leur reflet aux transparences de l'onde. Ici, dans un endroit stagnant, les roseaux, les prêles , les sagittaires à la feuille en fer de lance forment une forêt en miniature, là les nénuphars étalent leurs larges feuilles et dressent leurs lis jaunes. Ce sont à chaque pas; ou plutôt à chaque coup de rame, mille accidents pittoresques à faire prendre le crayon ou le pinceau d'un artiste. Tantôt c'est un mur de soutènement en planches qui font ventre sous le poids de la berge et se déjettent, forçant leurs poteaux, à travers un fouillis de ronces, de glaïeuls et de végétations sauvages; tantôt c'est un arbre trop près du bord qui crispe curieusement ses racines jaunies de limon et cherche à se rattraper au sol qu'affouille le courant. A cette place l'eau profonde prend des tons de miroir noir, à cette autre elle étale une mince gaze d'argent sur le sable qu'elle affleure, ou bien elle se diamante de points brillants au soleil comme des écailles de poissons. Des canots amarrés découpent leurs coques élégantes contre les mousses veloutées de la rive. Une masure au toit de chaume darde sa fumée blanche entre les masses de feuillage. Un moulin obstrue un arche de pont ou coupes la rivière avec ses batardeaux, ses écluses, ses vannes, ses roues verdies, d'où pendent des barbes d'herbes. Des îles aussi désertes que celle de Robinson Crusoé divisent le courant et noient dans l'eau l'image renversées de leurs grands arbres. Des marches d'escaliers descendent au rivage. Des débarcadères abandonnées se disloquent au fil de l'eau, et leurs vieilles charpentes composent des premiers plans à souhait pour les peintres. Des lavandières agenouillées frappent le linge de leurs battoirs et font des groupes pittoresques. Un bateau de tireur de sable reçoit à propos un rayon de soleil et produit un effet charmant/ Dans les petits bras que forment les iles, les feuillages s'enchevêtrent d'une rive à l'autre, et il faut, pour y passer, relever les branches, au risque d'effrayer quelque bergeronnette ou quelle martin-pêcheur, qui file coupant l'eau avec son aile de saphir: tout un monde de choses pures, calmes, fraîches, primitives, charmantes, épanouies dans le silence, l'abandon et la solitude, et dont semble qu'ait la virginité. 

Théophile Gautier, le Moniteur universel, 12 décembre 1864



 Peintures de Victor Lecomte (1856-1920) . Deuxième peinture intitulé "Côte de Champigny, vue de la Varenne"




dimanche 26 mars 2023

Remonter la Marne

Jean-Paul Kaufmann a remonté la Marne à pied, de son embouchure à la pagode Chinagora de Charenton-le-Pont, jusqu'à sa source à Balesme sur le plateau de Langres. Morceaux choisis:

* La Marne est à tort l'un des noms les plus stressants de notre langue: "c'est là qu'il faut attaquer la maison française avec une chance d'en enfoncer la porte" observe Fernand Braudel. Qu'est-elle devenue, cette chère maison? Au pire, une bicoque. Au mieux, un grand ensemble dont nous occupons un étage ou un palier avec, reprochent certains, des murs trop peu épais.

* Sur la carte, la boucle de Saint-Maur dessine une volute parfaite Elle singularise cette commune de l'Est parisien où la ville est repliée dans le lobe fluvial. Maisons normandes à colombages, villas Belle Epoque, chalets suisses, pavillons Art nouveau, ermitages néo-gothiques: en ce mois de septembre, on dirait des résidences de vacances fermées en attendant l'été suivant. Pas âme qui vive. On se croirait à la campagne, très loin de Paris, mais ce n'est pas une vraie campagne. On a trop corrigé la rivière. Elle sent le pique-nique, la balade digestive, la sortie du dimanche. Elle coule sans faire de manières, arrangeante, sans savoir ce qui l'attend tout à l'heure: l'avalement de la Seine.

* Barrage de Joinville: Ecoulement brutal de la rivière. L'explosion liquide répand un effluve extraordinaire qui n'est autre que l'odeur de l'eau. Un parfum violent, magnétique, peut-être le plus étourdissant des parfums. Il arrive par vagues et saisit frénétiquement l'odorat. C'est l'odeur d'une eau à moitié dormante qui se désintègre dans un épanchement écumeux: relent de vase purifié par l'éblouissement de la chute. Une odeur vaporisée d'eau vive. Le déferlement sent l'expurgation, quelque chose de mordant et d'amer qui ressemble au houblon. L'eau bouge enfin, elle ne se laisse pas faire, elle proteste. C'est un chœur où l'on distingue comme des cris et des huées, de brèves déflagrations et un grondement qui parfois s'enroue. 

* Meaux - ci-git Bossuet , en attendant la résurrection. (...) Bossuet faisait preuve d'une efficacité sans égale,  il aimait aussi bousculer les mots. Le bousculé, c'est peut-être cela l'idéal. Une certaine imperfection, en tout cas de négligé - pas de négligence - que Jacques Rivière a parfaitement défini: " je ne sais quoi de dédaigneux de ses aises, d'à moitié campé, de précaire et de profond, l'incommodité des situations extrêmes. Un esprit toujours en avant et au danger". Ce côté risqué, inconfortable, est ce qui convient le mieux au français. Quelque chose d'expéditif, de dégagé dans la tenue. Une forme de desserrement, venu sans peine. Pour moi, le comble de l'élégance. La grâce. Cependant il ne faut pas que cela se voie. 

* Le monde actuel a beau être quadrillé, il existe beaucoup de trous, de failles. Ce pays possède la grâce. Il a le chic pour ménager une multitude d'interstices, d'infimes espaces permettant de se soustraire à la maussaderie générale. Ce retrait, cette stratégie d'évitement face à l'affliction du temps sont à la portée de tous. Il suffit de ne pas se conformer au jugement des autres, à la prétendue expertise de ceux qui savent. Depuis mon départ, j'ai rencontré des hommes et des femmes qui pratiquent une forme de dissidence. Ils ne se sont pas pris au jeu et vivent en retrait. Ils ont appris à esquiver, à résister et savent respirer ou humer un autre air, conjurer les esprits malfaisants. Ces conjurateurs tournent le dos aux maléfices actuels tels que la lassitude, la déploration, le ressentiment, l'imprécation. Sans être exclus, ils refusent de faire partie du flux.

* L'eau exhale un parfum de feuilles mortes, d'infusion à froid, cette emprunte entêtante d'eau verte et terreuse, bouffées mouillées que ramène inlassablement le vent dans mes narines. Cette haleine de liquide bourbeux rappelle la canalisation d'eau suintante, une sensation de rouillé, de renfermé, paradoxalement rafraichissante. Si c'était un son, ce serait une basse continue. Sentiment de bien être légèrement litanique, perception de déjà senti. Dans ce déroulé monotone, l'olfaction est le sens le plus sollicité. 


Remonter la Marne, Jean-Paul Kauffmann, 2013

jeudi 12 janvier 2023

Naissance de Théophile

Un petit matin d’hiver doux, veille d’épiphanie
Un fils nous est donné
Un aimé de Dieu s’est manifesté.
Celui qui a tressailli a réussi
L’exploit de jaillir du bain sombre et tiède
Et de baigner de félicité l’entière maternité.
Nous vivons l’aube de son long intermède.
Ses mouvements de nourrisson fascinant 
Sont ceux d’un danseur en apesanteur
Toi, l’enfant, tu suspend le temps présent, sans peur
Tigre de Minuit à la chevelure empire
Ton sourire merveille nous rend confiant pour l’avenir.


 Naissance de Théophile, 5 Janvier 2023

 

dimanche 1 janvier 2023

L'échange entre la nature et les êtres dans la poésie chinoise de l'ère Tang

Jean-Marie Gustave le Clézio, prix Nobel de littérature, nous fait découvrir dans son livre "Le flot de la poésie continuera de couler" la poésie chinoise de l'ère Tang (618-907). 

J'y ai retenu un remarquable et inspirant échange entre la nature et les êtres, et même un amour de la nature pour les hommes.

Li Bai, Assis devant le Mont Jingting

Les oiseaux s’effacent en s’envolant vers le haut
Un nuage solitaire s’éloigne dans une grande nonchalance
Seuls, nous restons face à face, le Mont Jingting et moi
Sans nous lasser jamais l’un de l’autre






Xie Lingyun

Près de l'étang poussent des herbes printanières
Des oiseaux nouveaux occupent les saules du jardin


mercredi 30 novembre 2022

Purcell et King Arthur



La mise en scène du semi-opéra King Arthur d'Henry Purcell par Shirley, Dino et Hervé Niquet, qui a pu être représenté à l'Opéra Royal à Versailles le dimanche 20.11.2022, est absolument remarquable par:
- La beauté voir le génie de la musique de l'anglais Henry Purcell (1659-1695). Purcell est à la musique ce que son contemporain Molière est au théâtre. 
- La qualité musicale de l'ensemble du Concert Spirituel, dirigé par Hervé Niquet, et la fidélité parfaite au livret.
- Les intermèdes comiques de Dino, faits de demi grossièretés finement insérées.

On pourra noter les morceaux remarquables suivants: 
- la fin de l'acte I et le morceau Z.628 (17'30): " Come If You Dare" 
- le début de l'acte II avec une mise en scène originale d'un bois et des arbres chantant (24'30) et le morceau Z.628, Acte II: "Hither, This Way" chanté en zozotant (!)
- la fin de l'acte II avec les bergers hippies  (37') et le morceau Z.628, Act II: "How Blest Are Shepherds"
- le milieu de l'acte III avec le roi Arthur qui est gelé (52') et le morceau Z.628, Act III "What Power Art Thou" 
- la suite de l'acte III avec le magnifique morceau (57'00) Z.628, Act III, "See, See We Assemble Thy Tevels to Hold" chanté par la chorale à travers des fenêtres découpées dans un rideau de plastique transparent. L'interruption de Shirley et Dino en skieurs de fond norvégiens est hilarante !
- l'acte IV et le début du banquet, avec l'arrivée d'un barbecue grillant des saucisses sur la scène (1h16'). Une forte odeur de grillades a envahi tout l'opéra royal, certainement une première, depuis l'inauguration de l'opéra en mai 1770 à l'occasion des fêtes du mariage du Dauphin, futur Roi Louis XVI et de l'archiduchesse Marie-Antoinette!