{"version":"1.0","type":"rich","provider_name":"Acast","provider_url":"https://acast.com","height":250,"width":700,"html":"<iframe src=\"https://embed.acast.com/$/671a41db88b02e61c7a8a57d/6728e6cd580049df8f0b1c80?\" frameBorder=\"0\" width=\"700\" height=\"250\"></iframe>","title":"MM1.5: La Nueva Generación de Modelos Multimodales de Lenguaje","description":"<h2><br></h2><p>MM1.5 es una nueva familia de Modelos Multimodales de Lenguaje a Gran Escala (MLLMs) diseñada para mejorar las capacidades en la comprensión de imágenes ricas en texto, referencia visual y ubicación, y razonamiento con múltiples imágenes. Este podcast explora las innovaciones detrás de MM1.5, incluyendo:</p><ul><li><strong>Un enfoque centrado en los datos para el entrenamiento del modelo.</strong> Esto implica el uso de datos OCR de alta calidad y subtítulos sintéticos para el pre-entrenamiento continuo, así como una mezcla optimizada de datos de ajuste de instrucciones visuales para la sintonización fina supervisada.</li><li><strong>Modelos que van desde 1B a 30B parámetros</strong>, incluyendo variantes densas y de Mezcla de Expertos (MoE). Se destaca que incluso los modelos más pequeños (1B y 3B) pueden lograr un rendimiento sólido con una selección cuidadosa de datos y estrategias de entrenamiento.</li><li><strong>Dos variantes especializadas</strong>: MM1.5-Video, diseñado para la comprensión de video, y MM1.5-UI, adaptado para la comprensión de la interfaz de usuario móvil.</li><li><strong>Un análisis profundo de los procesos de entrenamiento y las decisiones de diseño</strong>, ofreciendo información valiosa para futuras investigaciones en el desarrollo de MLLM.</li></ul><p>Acompáñanos mientras <strong>desglosamos los componentes clave de MM1.5, sus capacidades y su impacto potencial en el futuro de la IA</strong>.</p><p><br></p>","author_name":"Joaquin Trujillo"}