DataGen

  • #123 - Starburst : Accélérer l’accès au Data Lake et attaquer plusieurs sources en une requête

    23:22
    Jérôme Campo est Solution Architect chez Starburst, la licorne américaine valorisée 3 milliards de $ qui propose une solution qui permet de requêter les Data Lake et de les fédérer avec d'autres sources, avec des grosses performances et avec des coûts très compétitifs. Pas très connue du grand public, c'est pourtant la solution qui est déjà utilisée par quasiment la moitié du CAC 40.On aborde :🔥 Son parcours entre Microsoft, Google, Cloudera et Starburst🔥 La technologie Open Source sous-jacente fondée en 2012 chez Facebook (aka Presto)🔥 Les 2 usages de Starburst : accélérer l’accès au Data Lake et attaquer plusieurs sources en une seule requête🔥 Où se positionne l’outil dans la stack versus le Data Warehouse, Fivetran, dbt…---❤️ PARTENAIRESCe podcast est rendu possible par :Eulidia, le cabinet de conseil et d'expertise technique spécialisé sur la data et l'IA.👉 Contactez Benjamin pour vous faire accompagnerSon mail : bcohen@eulidia.comSon LinkedIn : https://www.linkedin.com/in/cohenlhyver/👉 Mettez Elisa également dans la boucleSon mail : echarbonnier@eulidia.comSon LinkedIn : https://www.linkedin.com/in/elisa-charbonnier-737219121/Starburst, la solution qui permet de requêter les Data Lake et de les fédérer avec d'autres sources.👉 Contactez Jérôme pour en savoir plusLeur site : https://engage.starburst.io/frSon mail : jerome.campo@starburstdata.comSon LinkedIn : https://www.linkedin.com/in/jérôme-campo-06344019/---🎬 CHAPITRES00:00 Générique01:41 Intro03:34 À quoi sert Starburst ?05:07 1er usage : accélérer l’accès au Data Lake (Hadoop)07:17 Illustration avec Crédit Mutuel Arkea09:59 2ème usage : attaquer plusieurs sources avec une seule requête (multi-source / multi-cloud)12:51 Le positionnement de Starburst dans la Stack Data (Warehouse, Fivetran, dbt)14:37 Paysage concurrentiel15:55 La fonctionnalité de Starburst compatible avec l’approche Data Mesh18:32 Les questions de la fin (ressources, conseils...)---📚 RESSOURCESLe LinkedIn de Zak WilsonLe User Group de Starburst---🧐 AUTRES ÉPISODES QUE VOUS DEVRIEZ AIMER#117 - Masterclass | Tout comprendre sur les IA Génératives#111 - DataGalaxy : Mettre en place un Data Catalog#91 - Spendesk : Adopter l'approche Analytics Engineering---👋 PLUS DE CONTENU DATA ?1/ Suivez-moi sur LinkedIn ici 🤳2/ Inscrivez-vous à la newsletter (synthèses, événements) ici 💌---🎙 SOUTENEZ LE PODCAST GRATUITEMENT1/ Abonnez-vous 🔔2/ Laissez 5 étoiles et un avis sur Apple Podcasts ici 🥰
  • #122 - 360Learning : Déployer un projet GenAI avec GPT-4

    28:35
    Marie Douriez est Machine Learning Engineer chez 360Learning, la plateforme qui permet aux entreprises de créer des formations et de piloter leur suivi par leurs collaborateurs. Avant ça, elle est passée par Netflix et Lyft, 2 boîtes américaines connues pour être extrêmement data-driven. 360Learning compte près de 2000 clients en Europe et aux US. Ils sont 400 salariés dont 80 ingénieurs. Marie nous parle d’un projet GenAI qui permet à leurs utilisateurs de créer des cours en quelques minutes qui est aujourd’hui live dans le produit.On aborde :🔥 Son parcours et son passage à San Francisco : Berkeley, Lyft, Netflix🔥 Les grandes phases du projet GenAI et l’usage de GPT-4🔥 Les challenges principaux : expérience utilisateur, personnalisation, métriques de succès…🔥 L'évolution du métier de Machine Learning Engineer.---❤️ PARTENAIRECe podcast est rendu possible par Eulidia, le cabinet de conseil et d'expertise technique spécialisé sur la data et l'IA.👉 Contactez Benjamin pour vous faire accompagnerSon mail : bcohen@eulidia.comSon LinkedIn : https://www.linkedin.com/in/cohenlhyver/👉 Mettez Elisa également dans la boucleSon mail : echarbonnier@eulidia.comSon LinkedIn : https://www.linkedin.com/in/elisa-charbonnier-737219121/---🎬 CHAPITRES00:00 Générique01:31 Intro05:14 Le projet GenAI développé par 360Learning10:22 Comment ils utilisent GPT-412:38 Les dernières features développées17:22 L'évolution du métier de Machine Learning Engineer19:17 Les challenges principaux : XP utilisateur, personnalisation…22:57 Le bilan24:14 Les next steps : nouveaux produits GenAI notamment pour améliorer l'XP côté élève25:12 Les questions de la fin (ressources, conseils...)---📚 RESSOURCES- Data Driven 101, le podcast de Marc Sanselme- Les meetups Generative AI Paris---🧐 AUTRES ÉPISODES QUE VOUS DEVRIEZ AIMER#117 - Eulidia : Tout comprendre sur les IA Génératives#110 - Back Market : Leur stratégie Data Science#102 - Databricks : Une stack unique pour l’Analytics et l’IA---👋 PLUS DE CONTENU DATA ?1/ Suivez-moi sur LinkedIn ici 🤳2/ Inscrivez-vous à la newsletter (synthèses, événements) ici 💌---🎙 SOUTENEZ LE PODCAST GRATUITEMENT1/ Abonnez-vous 🔔2/ Laissez 5 étoiles et un avis sur Apple Podcasts ici 🥰
  • #121 - Lancer sa carrière en Data Science avec Natacha Njongwa Yepnga

    27:33
    Natacha Njongwa Yepnga est Senior Data Scientist et est actuellement Consultante à la Société Générale. Elle est surtout l’une des plus grandes influenceuses data en France avec +26 000 followers sur LinkedIn et +10 000 abonnés à sa chaîne Youtube LeCoinStat. Elle y partage du contenu sur des sujets techniques ou des conseils de carrière à destination des profils data.On aborde :🔥 Son parcours et ce qui la motive à créer du contenu🔥 Les différents métiers data et les études à suivre pour se former🔥 Sa vision sur le métier de Data Scientist : est-ce que le métier est saturé ?🔥 Ses recommandations pour bien se préparer aux entretiens d’embauche.---❤️ PARTENAIRECe podcast est rendu possible par DataBird, le bootcamp spécialisé sur la Data.👉 Lien vers leur site internet : bit.ly/47UthCv---🎬 CHAPITRES00:00 Générique01:40 Intro03:35 Quelles études pour travailler ou se reconvertir dans la data ?08:29 Les différents métiers de la data11:36 Est-ce que le métier de Data Scientist est saturé sur le marché aujourd'hui ?15:07 Vers quel type d'entreprise se diriger ?16:37 Comment préparer les entretiens d'embauche18:35 Les questions de la fin (ressources, conseils...)---📚 RESSOURCESStatQuest de Josh StarmerMachine Learnia de Guillaume Saint-CirgueCassie KozyrkovWillis NanaKevin RosamontBenjamin EjzenbergThe Diary of a CEO de Steven BartlettLinchpin de Seth Godin---🧐 AUTRES ÉPISODES QUE VOUS DEVRIEZ AIMER#71 - Lancer sa carrière data avec Kevin Rosamont Prombo#118 - Reconversion | Des Ressources Humaines à Data Analyst spécialisée RH#103 - Reconversion | De Responsable Études de Marché à Data Analyst---💪 VOUS AVEZ UN PROJET DATA ?DataGen, c'est aussi un collectif de freelances data issus des plus belles boîtes (BlaBlaCar, Aircall, Critéo, Artefact, 55, Sunday...).Head of Data, Data Analyst, Data Engineer, Data Scientist... On a l'équipe qu'il vous faut !👉 Nous rencontrer
  • #120 - La fin de la Modern Data Stack ? Avec Christophe Blefari (aka Blef)

    39:25
    Christophe Blefari est Senior Data Engineer et auteur de la célèbre newsletter data française Blef.fr. Il est l’un des plus gros experts data en France et est d’ailleurs membre du collectif de freelances DataGen. Il revient nous parler des dernières actualités data, notamment du débat qui échauffe les esprits ces dernières semaines : est-ce la fin de la Modern Data Stack ?On aborde :🔥 Pourquoi parle-t-on de la fin de la Modern Data Stack ?🔥 Ce qu’on observe auprès de l’écosystème français🔥 Le retour de Christophe sur la dernière conférence DuckDB🔥 La “Fast news” de Christophe : SDF, nouvelle alternative à dbt ?---💪 VOUS AVEZ UN PROJET DATA ?DataGen a lancé un collectif de freelances data issus des plus belles boîtes (BlaBlaCar, Aircall, Critéo, Artefact, 55, Sunday...).Vous avez un projet data ? On a l'équipe qu'il vous faut : Head of Data, Data Analyst, Data Engineer, Data Scientist, etc.👉 Rencontrez-nous ici.---🎬 CHAPITRES00:00 Générique01:27 Intro02:23 Pourquoi parle-t-on de la fin de la Modern Data Stack ?05:41 Retour sur l’adoption massive du concept de Modern Data Stack20:50 Zoom sur l’écosystème Data Stack en France29:46 Nouveauté DuckDB : l'outil sort en version 1 à l'été 202435:12 La Fast news de Blef : SDF, la nouvelle alternative de bdt.---📚 RESSOURCES- Fundamentals of Data Engineering de Joe Reis- Les replays du Data Council à Austin 2024 ne sont pas encore sortis. Voici la chaîne YouTube- L’article sur SDF, l’alternative à dbt---🧐 AUTRES ÉPISODES QUE VOUS DEVRIEZ AIMER🇬🇧 #106 - Aircall: Adapting the Data Strategy to the slowing economic environment#100 - On décrypte 3 tendances data de 2024 avec Christophe Blefari 🎁#90 - Ovrsea : Mettre en place une approche Self-Service#67 - Les 4 tendances data de 2023 avec Christophe Blefari (Aka Blef.fr)---👋 PLUS DE CONTENU DATA ?1/ Suivez-moi sur LinkedIn ici 🤳2/ Inscrivez-vous à la newsletter (synthèses, événements) ici 💌---🎙 SOUTENEZ LE PODCAST GRATUITEMENT1/ Abonnez-vous 🔔2/ Laissez 5 étoiles et un avis sur Apple Podcasts ici 🥰
  • #119 - Carrefour : Passer d’un Data Lab à une Analytics Factory

    28:19
    🎁 LIEN VERS LE FORMULAIRE A REMPLIR (3-4 MIN) POUR TENTER DE GAGNER UNE MONTRE FITBIT : https://bit.ly/3uwlqNH 🎁Arnaud Grojean est Chief Data & Analytics Officer Europe chez Carrefour, le leader de la grande distribution en Europe. Ils sont aujourd’hui 150 au sein de l’Analytics Factory. Il est venu nous parler de son plus gros challenge : passer la data à l’échelle via la création d’une Analytics Factory.On aborde :🔥 Son parcours pour devenir Chief Data & Analytics Officer Europe🔥 La phase Data Lab et le passage à l’échelle avec l’Analytics Factory🔥 L’approche adoptée et les objectifs de l’Analytics Factory🔥 Les principaux challenges et les prochaines étapes.---❤️ PARTENAIRECe podcast est rendu possible par DataGalaxy, le Data Catalog utilisé par plus de 150 clients dans le monde (Total, SNCF ou Bank of China aux US).👉 Réservez une demo : https://bit.ly/3P0DQNA. ---🎬 CHAPITRES00:00 Générique01:44 Intro03:45 Le parcours d’Arnaud05:50 Prouver l’impact de la data (Data Lab)08:43 Scaler l’usage de la data (Analytics Factory)11:22 Deux use cases14:42 Les challenges rencontrés : prioriser les projets et s’adapter au marché 19:47 La data victime de son succès chez Carrefour21:58 Les next steps : extension géographique, acculturation data et formations24:56 Les questions de la fin (ressources, conseils...)---📚 RESSOURCESCassie Kozyrkov : son LinkedIn, sa chaîne YouTube et son Medium---🧐 AUTRES ÉPISODES QUE VOUS DEVRIEZ AIMER#78 - Air France : Assurer l’adoption des produits data#84 - Veepee : Utiliser les Data Contracts pour scaler sa Data Platform#54 - Pernod Ricard : Lancer des programmes de Data Science---💪 VOUS AVEZ UN PROJET DATA ?DataGen, c'est aussi un collectif de freelances data issus des plus belles boîtes (BlaBlaCar, Aircall, Critéo, Artefact, 55, Sunday...).Head of Data, Data Analyst, Data Engineer, Data Scientist... On a l'équipe qu'il vous faut !👉 Nous rencontrer---👋 PLUS DE CONTENU DATA ?1/ Suivez-moi sur LinkedIn ici 🤳2/ Inscrivez-vous à la newsletter (synthèses, événements) ici 💌---🎙 SOUTENEZ LE PODCAST GRATUITEMENT1/ Abonnez-vous 🔔2/ Laissez 5 étoiles et un avis sur Apple Podcasts ici 🥰
  • #118 - Reconversion | Des Ressources Humaines à Data Analyst spécialisée RH

    16:53
    Laura Chane Ching était cheffe de projet RH chez Decathlon et s’est reconvertie vers un rôle de Data Analyst spécialisée RH toujours chez Decathlon (aka People Analytics). On aborde :🔥 Son parcours et les facteurs qui l’ont poussée à se reconvertir dans la data🔥 Le choix de la formation DataBird et le soutien de Decathlon🔥 La transition et ses chantiers au sein du département People Analytics🔥 Ses conseils pour réussir une reconversion en data.---❤️ PARTENAIRECe podcast est rendu possible par DataBird, le bootcamp spécialisé sur la Data.👉 Lien vers leur site internet : bit.ly/47UthCv---🎬 CHAPITRES00:00 Générique00:51 Intro02:35 Qu’est-ce que le People Analytics ?04:49 Le déclic pour se reconvertir05:42 Pourquoi DataBird ?07:07 La transition vers son nouveau poste09:24 Ses nouvelles missions12:09 Les compétences acquises lors de la formation qu’elle utilise au quotidien13:08 Les questions de la fin (ressources, conseils...)---📚 RESSOURCEChatGPT---🧐 AUTRES ÉPISODES QUE VOUS DEVRIEZ AIMER#103 - Reconversion | De Responsable Études de Marché à Data Analyst#71 - Lancer sa carrière data avec Kevin Rosamont Prombo#60 - Décathlon : Implémenter une nouvelle stratégie Analytics---💪 VOUS AVEZ UN PROJET DATA ?DataGen, c'est aussi un collectif de freelances data issus des plus belles boîtes (BlaBlaCar, Aircall, Critéo, Artefact, 55, Sunday...).Head of Data, Data Analyst, Data Engineer, Data Scientist... On a l'équipe qu'il vous faut !👉 Nous rencontrer---👋 PLUS DE CONTENU DATA ?1/ Suivez-moi sur LinkedIn ici 🤳2/ Inscrivez-vous à la newsletter (synthèses, événements) ici 💌---🎙 SOUTENEZ LE PODCAST GRATUITEMENT1/ Abonnez-vous 🔔2/ Laissez 5 étoiles et un avis sur Apple Podcasts ici 🥰
  • #117 - Masterclass | Tout comprendre sur les IA Génératives avec Benjamin Cohen-Lhyver

    37:25
    🎁 LIEN VERS LE FORMULAIRE A REMPLIR (3-4 MIN) POUR TENTER DE GAGNER UNE MONTRE FITBIT : https://bit.ly/3uwlqNH 🎁Benjamin Cohen-Lhyver est expert et docteur en Data Science & en IA, et également Chief Data Science Officer chez Eulidia, le cabinet de conseil et d'expertise technique spécialisé sur la data et l'IA.On aborde :🔥 Les étapes d’un projet GenAI en entreprise : cadrage, sélection des modèles, industrialisation🔥 Les différents types de modèles et leurs avantages : Propriétaire, Open Source, OpenAI, Mistral, etc.🔥 La définition des concepts clés : transformers, RAG, “LLM as a judge”, etc.🔥 Ses prévisions pour le futur à l’ère de l’Intelligence Artificielle.---❤️ PARTENAIRES Ce podcast est rendu possible par :DataGalaxy, le Data Catalog utilisé par plus de 150 clients dans le monde (Total, SNCF ou Bank of China aux US).👉 Réservez une demo : https://bit.ly/3P0DQNAEulidia, le cabinet de conseil et d'expertise technique spécialisé sur la data et l'IA.👉 Contacter Benjamin sur LinkedIn https://www.linkedin.com/in/cohenlhyver/ ou par mail à bcohen@eulidia.com---🎬 CHAPITRES00:00 Générique01:39 Intro03:06 Zoom sur les Transformers08:24 Cadrer un projet GenAI11:04 Comment choisir le bon LLM ?15:52 Que choisissent les boîtes aujourd’hui ? Open Source ou Propriétaire ?18:59 Zoom sur Mistral20:35 Utiliser des LLM as a judge24:02 Industrialiser un projet GenAI26:51 Zoom sur les RAGs28:28 Les plus gros challenges des projets GenAI30:39 A quoi ressemblera le monde de demain ?33:52 Les questions de la fin (ressources, conseils...)---📚 RESSOURCESLes subreddits LocalLLaMA, machinelearningnews et datascienceLa chaîne YouTube 3Blue1Brown---🧐 AUTRES ÉPISODES QUE VOUS DEVRIEZ AIMER#110 - Back Market : Leur stratégie Data Science#89 - Therapixel : Détecter le cancer grâce à l’IA#122 - L’épisode 360Learning mentionné avec Benjamin sera publié le 13/04. Abonne-toi pour ne pas rater sa sortie !---👋 PLUS DE CONTENU DATA ?1/ Suivez-moi sur LinkedIn ici 🤳2/ Inscrivez-vous à la newsletter (synthèses, événements) ici 💌
  • #116 - Fivetran : L’ETL pilier de la Modern Data Stack

    18:16
    Mabrouk Gadri est Senior Solution Engineer chez Fivetran, l’ETL moderne qui a été adopté par énormément de boites en France et dans le monde, aussi bien des startups que des grands groupes du CAC40.On aborde :🔥 Ce qu’est un ETL Moderne et les différentes solutions du marché🔥 Pourquoi les entreprises choisissent Fivetran ?🔥 L’adoption croissante des ETL modernes par les grands groupes🔥 Comment les IA Génératives impactent ce marché.---❤️ PARTENAIRECe podcast est rendu possible par Fivetran👉 Lien vers leur site internet : https://bit.ly/3Tm34ax---🎬 CHAPITRES00:00 Générique00:55 Intro04:22 Qu’est-ce qu’un ETL moderne ?07:37 Qu’est-ce qui distingue Fivetran des autres solutions ?10:23 L’adoption croissante des ETL modernes par les grands groupes13:13 Quel est l’impact des IA génératives sur ce marché ?15:36 Les questions de la fin (ressources, conseils...)---📚 RESSOURCES- Le Medium Towards Data Science- Le LinkedIn de Mabrouk- Le LinkedIn de Bill Hillman- La chaîne Ternary Data de Joe Reis---🧐 AUTRES ÉPISODES QUE VOUS DEVRIEZ AIMER#112 - MyLight Systems : Migrer vers une Modern Data (& AI) Stack avec Databricks#14 - Aircall : Faire scaler l'impact de l'équipe data sur l'entreprise---💪 VOUS AVEZ UN PROJET DATA ?DataGen, c'est aussi un collectif de freelances data issus des plus belles boîtes (BlaBlaCar, Aircall, Critéo, Artefact, 55, Sunday...).Head of Data, Data Analyst, Data Engineer, Data Scientist... On a l'équipe qu'il vous faut !👉 Nous rencontrer---👋 PLUS DE CONTENU DATA ?1/ Suivez-moi sur LinkedIn ici 🤳2/ Inscrivez-vous à la newsletter (synthèses, événements) ici 💌
  • #115 - Doctolib : Scaler sa Data Visualisation auprès de 2000 utilisateurs

    30:55
    🎁 LIEN VERS LE FORMULAIRE A REMPLIR (3-4 MIN) POUR TENTER DE GAGNER UNE MONTRE FITBIT : https://bit.ly/3uwlqNH 🎁Lucie Bailly est Data Product Manager chez Doctolib, la licorne française qui propose une plateforme de prise de rendez-vous avec des médecins et qui permet également de faire de la téléconsultation. Elle est présente en France, en Allemagne et en Italie, et est aujourd’hui utilisée par 340 000 personnels de santé et plus de 80 millions de patients.On aborde :🔥 L’organisation Data chez Doctolib et son rôle de Data Product Manager🔥 Son plus gros challenge : déployer Tableau à l’échelle auprès de 2000 utilisateurs🔥 Les étapes clés : audit, POC, implémentation technique, gouvernance, ouverture, run🔥 La difficulté majeure : la phase d’itération nécessaire au moment de l’ouverture de l’outil aux équipes (ex : process, documentation)---❤️ PARTENAIRECe podcast est rendu possible par DataGalaxy, le Data Catalog utilisé par plus de 150 clients dans le monde (Total, SNCF ou Bank of China aux US).👉 Réservez une demo : https://bit.ly/3P0DQNA---🎬 CHAPITRES00:00 Générique01:25 Intro04:33 L'organisation Data chez Doctolib05:45 Les principaux chantiers de Lucie07:07 Son challenge principal : scaler son outil de Data Visualisation09:55 Etape 1 : audit10:58 Etape 2 : POC13:00 Etape 3 : implémentation technique15:13 Etape 4 : ouverture de l'outil aux équipes Data17:16 Etape 5 : run17:47 Sa plus grosse difficulté : l’ouverture aux équipes20:53 Le Data Enablement chez Doctolib22:22 Ses conseils pour scaler sa Data Visualisation24:13 La stack data chez Doctolib24:39 Les prochaines étapes26:46 Les questions de la fin (ressources, conseils...)---📚 RESSOURCEDear Data de Giorgia Lupi---🧐 AUTRES ÉPISODES QUE VOUS DEVRIEZ AIMER#97 - Contentsquare : Lancer l’équipe Product Analytics#90 - Ovrsea : Mettre en place une approche Self-Service#11 - Doctolib : Accélérer la mise à disposition des données grâce à une réorganisation---💪 VOUS AVEZ UN PROJET DATA ?DataGen, c'est aussi un collectif de freelances data issus des plus belles boîtes (BlaBlaCar, Aircall, Critéo, Artefact, 55, Sunday...).Head of Data, Data Analyst, Data Engineer, Data Scientist... On a l'équipe qu'il vous faut !👉 Nous rencontrer---👋 PLUS DE CONTENU DATA ?1/ Suivez-moi sur LinkedIn ici 🤳2/ Inscrivez-vous à la newsletter (synthèses, événements) ici 💌
loading...