{"version":"1.0","type":"rich","provider_name":"Acast","provider_url":"https://acast.com","height":250,"width":700,"html":"<iframe src=\"https://embed.acast.com/$/67a716499c6f7f7f280da15b/6a023ec692e9663a6fa5469e?\" frameBorder=\"0\" width=\"700\" height=\"250\"></iframe>","title":"LLM as a judge : pourquoi l’évaluation par l’IA ne suffit pas, Laurent Zhang","thumbnail_width":200,"thumbnail_height":200,"thumbnail_url":"https://open-images.acast.com/shows/67a716499c6f7f7f280da15b/1778532009514-8111211c-b7af-4a43-ab44-7c7f5a507980.jpeg?height=200","description":"<p>Comment évaluer un agent IA quand il ne se contente plus de répondre, mais choisit ses outils, manipule des données et déclenche des actions ?</p><p><br></p><p><strong>Laurent Zhang</strong> est le cofondateur de <a href=\"https://www.mankinds.io\" rel=\"noopener noreferrer\" target=\"_blank\">Mankinds</a>, une plateforme d’évaluation d’applications IA incubée à Station F dans le programme F/ai.</p><p>Dans cet épisode, il partage son expérience sur l'évaluation des applications d’IA générative et les systèmes agentiques.</p><p>Nous discutons notamment des alternatives au \"LLM as a judge\" avec des tests plus déterministes, auditables et adaptés aux secteurs régulés.</p><p><br></p><p>Il explique :</p><ul><li>La différence entre un workflow IA séquentiel vs un agent autonome.</li><li>Les limites de la méthode d'évaluation avec un LLM (LLM as a judge) et les alternatives.</li><li>L'approche d'évaluation que propose Mankind avec des scoreurs déterministes et des datasets contextualisés.</li><li>Pourquoi la conformité n'est pas un frein mais un accélérateur à l'innovation.</li></ul><p><br></p><p>(00:00:00) Parcours de Laurent et mission de Mankind</p><p>(00:06:21) Systèmes agentiques et limites du LLM as a judge</p><p>(00:15:27) Du contexte aux tests déterministes</p><p>(00:25:31) Orchestration, modèles et mise en production</p><p>(00:36:03) RAG, graphes et adoption de l’IA agentique</p>","author_name":"Terry Michel"}