{"version":"1.0","type":"rich","provider_name":"Acast","provider_url":"https://acast.com","height":250,"width":700,"html":"<iframe src=\"https://embed.acast.com/$/6966aba40b081bb8b92e4a16/69944a418b7fe5457d2b6267?\" frameBorder=\"0\" width=\"700\" height=\"250\"></iframe>","title":"IA: Pourquoi la taille ne compte plus ?","thumbnail_width":200,"thumbnail_height":200,"thumbnail_url":"https://open-images.acast.com/shows/6966aba40b081bb8b92e4a16/1771325930369-dae38218-aa1c-4844-997b-80fa2a27c2ea.jpeg?height=200","description":"<p>Peut-on battre les modèles de Google ou Meta avec seulement 4 GPU et une disquette Zip ? C’est le pari fou de notre invité.e  qui nous explique comment le \"Data Design\" est en train de ringardiser le scraping massif du web.</p><p><br></p><p>🥖 L'IA qui tient sur une disquette : La fin du gigantisme ?</p><p><br></p><p>Dans cet épisode, on plonge dans le coeur de l'IA souveraine : pourquoi la qualité des données (tokens) prime sur la quantité, et comment les Small Language Models (SLM) vont permettre de décentraliser l'intelligence.</p><p><br></p><p>🚀 Ce que vous allez apprendre :</p><p>- Baguette-o-tron : Le modèle de 320M de paramètres qui raisonne mieux que des géants.</p><p>- Data Design vs Scraping : Pourquoi \"nettoyer\" la donnée ne suffit plus, il faut la concevoir.</p><p>-  Le secret des données synthétiques : Comment éviter le \"Model Collapse\" (l'appauvrissement de l'IA).</p><p>-  Souveraineté : L'enjeu des bibliothèques nationales et de l'Open Data face au pillage des \"Shadow Libraries\".</p><p><br></p><p>⏳ Timestamps pour naviguer :</p><p><br></p><p>00:00 - Intro : Le format Pionnier/Pionnière de la tech</p><p>04:20 - Indice 4 points : Qui est la chercheuse secrète ? </p><p>11:50 - Pourquoi le \"Common Crawl\" est pollué (cookies, copyright) </p><p>18:30 - Le crash des données : Le cas New York Times vs OpenAI</p><p> 27:15 - Baguette-o-tron : Une IA performante sur disque Zip ! </p><p>35:40 - Données synthétiques : Ancrer l'IA dans le réel (Code &amp; Math) </p><p>45:10 - L'IA comme \"Primitive\" : Pourquoi le local est l'avenir </p><p>52:00 - Les modèles hiérarchiques (HRM) et le système de pensée 1 &amp; 2</p><p><br></p><p>🔗 Liens et ressources :</p><p>Playas : https://playas.fr</p><p>Modèles &amp; Datasets : Retrouvez \"Common Corpus\" sur Hugging Face.</p><p><br></p><p>Vous préférez une IA géante dans le Cloud ou une IA agile sur votre téléphone ? On attend votre avis en commentaire ! 👇</p><p><br></p><p>#IntelligenceArtificielle #SLM #OpenSource #TechFrançaise #ALaFrench #MachineLearning #SouverainetéNumérique</p>","author_name":"Mehdi Medjaoui - Jean-Baptiste Kempf - Steeve Morin"}