# How do AI models generate videos? (Podcast)
**Date de l'événement :** 08/10/2025
* Publié le 08/10/2025

**Vide :**
[Vidéo 1](https://open.spotify.com/episode/2AgvqPsDKkfaxm1dVIIAWA?si=Q3eU_vqDQpSXJlXYJ8Nrpw) 

## Description
`Accédez aux chapitres, insights et résumés en cliquant sur les petites étoiles en-dessous du lecteur ↗️`

L'IA générative de vidéo, comme Sora et Veo 3, est désormais accessible au grand public, permettant la création de contenus variés, des effets spéciaux de Netflix aux clips personnels. Cependant, cette technologie soulève des inquiétudes majeures : la prolifération de "AI slop", les fausses informations visuelles, et l'utilisation massive d'énergie, bien supérieure à la génération de texte ou d'images. Les données d'entraînement, souvent "scrapées" d'internet, posent également des problèmes éthiques et de biais.

Au cœur de la génération vidéo se trouvent les modèles de diffusion. Ces réseaux neuronaux sont entraînés à transformer un "bruit" aléatoire de pixels en images cohérentes, en inversant un processus de pixellisation progressive. Associés à des grands modèles de langage (LLM), ils interprètent des requêtes textuelles pour guider la création visuelle. Leurs données d'entraînement, issues de milliards de paires texte-image/vidéo, reflètent le monde en ligne, avec ses préjugés et ses contenus controversés.

La génération vidéo est gourmande en ressources. Pour y remédier, les modèles de diffusion latente opèrent dans un "espace latent", où les données vidéo et les invites textuelles sont compressées en un code mathématique. Au lieu de traiter des millions de pixels bruts, le modèle manipule ces représentations compactes, réduisant considérablement la charge de calcul. Bien que plus efficace que la diffusion standard, cette méthode reste très énergivore, soulignant l'intensité computationnelle de la création vidéo.

Assurer la cohérence entre les images d'une vidéo générée est un défi majeur. Les modèles comme Sora intègrent des "transformers" aux modèles de diffusion. Ces derniers, excellents pour traiter des séquences longues, découpent les vidéos en "cubes" spatio-temporels. Cette approche permet de maintenir la continuité des objets et de l'éclairage, évitant les incohérences. Elle autorise aussi l'entraînement sur une grande variété de formats vidéo, améliorant significativement la qualité des productions.

L'innovation majeure de Veo 3 est la génération simultanée de vidéo et d'audio synchronisé, marquant la fin de "l'ère silencieuse" de la création vidéo par IA. Google DeepMind a développé une méthode pour compresser audio et vidéo en une seule donnée. Par ailleurs, les frontières entre les modèles de diffusion (pour l'image/vidéo) et les transformers (pour le texte) s'estompent. Des LLM expérimentaux utilisent désormais la diffusion pour générer du texte, promettant des modèles plus efficaces à l'avenir.

### Date
08/10/2025

### Thème(s)
`#Créativité` `#Intelligence artificielle (AI & GenAI)` `#Numérique et technologie` 

### Format
`#Audio` `#Podcast` 

### Format
`#Audio` `#Podcast` 


---
### Média externe associé : https://open.spotify.com/episode/2AgvqPsDKkfaxm1dVIIAWA?si=Q3eU_vqDQpSXJlXYJ8Nrpw

#### Résumé du média
L'IA générative de vidéo, comme Sora et Veo 3, est désormais accessible au grand public, permettant la création de contenus variés, des effets spéciaux de Netflix aux clips personnels. Cependant, cette technologie soulève des inquiétudes majeures : la prolifération de "AI slop", les fausses informations visuelles, et l'utilisation massive d'énergie, bien supérieure à la génération de texte ou d'images. Les données d'entraînement, souvent "scrapées" d'internet, posent également des problèmes éthiques et de biais.

Au cœur de la génération vidéo se trouvent les modèles de diffusion. Ces réseaux neuronaux sont entraînés à transformer un "bruit" aléatoire de pixels en images cohérentes, en inversant un processus de pixellisation progressive. Associés à des grands modèles de langage (LLM), ils interprètent des requêtes textuelles pour guider la création visuelle. Leurs données d'entraînement, issues de milliards de paires texte-image/vidéo, reflètent le monde en ligne, avec ses préjugés et ses contenus controversés.

La génération vidéo est gourmande en ressources. Pour y remédier, les modèles de diffusion latente opèrent dans un "espace latent", où les données vidéo et les invites textuelles sont compressées en un code mathématique. Au lieu de traiter des millions de pixels bruts, le modèle manipule ces représentations compactes, réduisant considérablement la charge de calcul. Bien que plus efficace que la diffusion standard, cette méthode reste très énergivore, soulignant l'intensité computationnelle de la création vidéo.

Assurer la cohérence entre les images d'une vidéo générée est un défi majeur. Les modèles comme Sora intègrent des "transformers" aux modèles de diffusion. Ces derniers, excellents pour traiter des séquences longues, découpent les vidéos en "cubes" spatio-temporels. Cette approche permet de maintenir la continuité des objets et de l'éclairage, évitant les incohérences. Elle autorise aussi l'entraînement sur une grande variété de formats vidéo, améliorant significativement la qualité des productions.

L'innovation majeure de Veo 3 est la génération simultanée de vidéo et d'audio synchronisé, marquant la fin de "l'ère silencieuse" de la création vidéo par IA. Google DeepMind a développé une méthode pour compresser audio et vidéo en une seule donnée. Par ailleurs, les frontières entre les modèles de diffusion (pour l'image/vidéo) et les transformers (pour le texte) s'estompent. Des LLM expérimentaux utilisent désormais la diffusion pour générer du texte, promettant des modèles plus efficaces à l'avenir.

#### Mots-clés du média
`Génération vidéo IA` `Modèles de diffusion` `Transformers` `Intelligence artificielle` `Sora` `Veo 3` `Consommation énergétique` `Cohérence vidéo` `Génération audio` `Modèles de langage` `Technologie IA` `Création de contenu` `Apprentissage profond` `Éthique IA` `Traitement d'images`

#### Chapitres du média
- **Introduction et Publicités** (0.312 - 59.377): Présentation de Notebook LM, un outil basé sur l'IA pour organiser les idées, suivie d'une introduction au podcast MIT Technology Review Narrated et d'une publicité pour l'application NOAA.
    - (0.312): Steven Johnson, co-fondateur de Notebook LM, se présente.
    - (0.312): Notebook LM est un outil basé sur l'IA pour organiser les idées et comprendre des informations complexes.
    - (0.312): Notebook LM agit comme un expert personnel pour découvrir des informations et aider au brainstorming.
    - (0.312): Matt Honan, rédacteur en chef, présente MIT Technology Review Narrated.
    - (0.312): Le podcast propose chaque semaine une histoire approfondie sur la science et la technologie (IA, biotechnologie, climat, etc.).
    - (0.312): Promotion de l'application NOAA pour écouter plus d'articles.
- **L'impact et les défis de la génération vidéo par IA** (89.016 - 139): Discussion sur l'utilisation croissante de l'IA pour la génération de vidéos (ex: Netflix, Sora, Veo 3), la facilité d'accès pour les utilisateurs occasionnels, mais aussi les défis comme le 'AI slop', les fausses nouvelles et la consommation d'énergie.
    - (89.016): Netflix a utilisé des effets visuels d'IA dans sa série "The Eternaut", marquant la première utilisation de la génération vidéo pour la télévision grand public.
    - (89.016): Des outils de génération vidéo comme Sora et Veo 3 sont désormais accessibles via des applications comme ChatGPT et Gemini, permettant même aux cinéastes amateurs de créer du contenu remarquable.
    - (89.016): Les inconvénients incluent la concurrence avec le contenu généré par IA et la diffusion de fausses nouvelles sur les réseaux sociaux.
    - (89.016): La génération vidéo consomme une énorme quantité d'énergie, bien plus que la génération de texte ou d'images.
- **Principes techniques des modèles de diffusion et diffusion latente** (139 - 441.766): Explication détaillée du fonctionnement des modèles de diffusion, de la transformation d'images bruitées en images cohérentes, et de l'intégration des LLM pour guider la génération. Aborde ensuite les modèles de diffusion latente, plus efficaces en travaillant sur des données compressées, tout en soulignant la consommation énergétique élevée.
    - (139): Présentation des vidéos générées par IA et de la technologie sous-jacente.
    - (139): Les utilisateurs interagissent avec ces outils via des applications ou des sites web, avec des résultats souvent imprécis nécessitant plusieurs tentatives.
    - (139): La technologie clé est celle des transformeurs de diffusion latente, qui sont énergivores.
    - (139): Un modèle de diffusion est un réseau neuronal entraîné à inverser le processus d'ajout de bruit (pixels aléatoires) pour créer des images.
    - (139): Les modèles de langage (LLM) guident le modèle de diffusion pour générer des images correspondant à une invite textuelle.
    - (139): Les modèles sont entraînés sur d'énormes ensembles de données textuelles et visuelles provenant d'internet, ce qui soulève des questions éthiques et de biais.
    - (139): La technique de diffusion peut être appliquée à la vidéo en nettoyant des séquences d'images (trames consécutives).
    - (139): La diffusion latente améliore l'efficacité en traitant des données compressées dans un "espace latent" plutôt que des pixels bruts.
    - (139): Malgré l'efficacité de la diffusion latente, la génération vidéo reste extrêmement gourmande en énergie.
- **Publicité: Notebook LM** (443.188 - 470.992): Présentation de Notebook LM, un outil basé sur l'IA pour organiser les idées et établir des connexions à partir de documents.
    - (443.188): Présentation de Stephen Johnson, co-fondateur de Notebook LM.
    - (443.188): Sa motivation : son obsession pour les logiciels d'organisation d'idées.
    - (443.188): Notebook LM est un outil basé sur l'IA pour gérer des informations complexes.
    - (443.188): Fonctionnalités : téléchargez des documents, agit comme un expert personnel, découvre des informations et aide au brainstorming.
    - (443.188): Appel à l'action et adresse du site web.
- **Innovations et convergence des modèles de génération vidéo** (473.383 - 752.252): Exploration des modèles de diffusion latente avec transformeurs pour assurer la cohérence des séquences vidéo (ex: Sora). Présentation de l'avancée de Veo 3 dans la génération de vidéo avec audio synchronisé. Discussion sur la distinction et la convergence entre les modèles de diffusion (pour images/vidéo/audio) et les transformeurs (pour le texte), et l'émergence de LLM basés sur la diffusion pour une meilleure efficacité.
    - (473.383): OpenAI a combiné les modèles de diffusion avec des transformeurs (comme Sora) pour assurer la cohérence des séquences vidéo, maintenant objets et éclairage entre les images.
    - (473.383): Les vidéos sont découpées en "cubes" spatio-temporels, permettant aux transformeurs de traiter de longues séquences de données et d'améliorer la cohérence inter-images.
    - (473.383): Cette méthode permet de générer des vidéos sans objets apparaissant/disparaissant et facilite l'entraînement sur une grande variété de formats vidéo.
    - (473.383): Veo 3 de Google DeepMind est le premier modèle à générer des vidéos avec un audio synchronisé (dialogues, effets sonores, bruits de fond).
    - (473.383): L'innovation de Veo 3 réside dans la compression de l'audio et de la vidéo en une seule donnée pour une synchronisation parfaite.
    - (473.383): Les modèles de diffusion et les transformeurs convergent; des LLM expérimentaux utilisent des modèles de diffusion pour générer du texte, potentiellement de manière plus efficace que les transformeurs.
- **Publicité: Notebook LM** (753.892 - 781.701): Présentation de Notebook LM, un outil basé sur l'IA pour organiser les idées et établir des connexions à partir de documents.
    - (753.892): Introduction de Stephen Johnson, co-fondateur de Notebook LM.
    - (753.892): Motivation derrière Notebook LM : organiser des idées et faire des liens.
    - (753.892): Notebook LM est un outil basé sur l'IA pour gérer des informations complexes.
    - (753.892): Fonctionnalités : téléchargez des documents pour obtenir des analyses et de l'aide au brainstorming.
    - (753.892): Appel à l'action : essayez Notebook LM.



---
### Navigation pour IA
- [Index de tous les contenus](https://weare.my-memory.io/llms.txt)
- [Plan du site (Sitemap)](https://weare.my-memory.io/sitemap.xml)
- [Retour à l'accueil](https://weare.my-memory.io/)
