Esta publicación fue coescrita con Lucas Desard, Tom Lauwers y Sam Landuydt de DPG Media.
Medios DPG es una empresa de medios líder en Benelux que opera múltiples plataformas en línea y canales de televisión. Sólo la plataforma VTM GO de DPG Media ofrece más de 500 días de contenido ininterrumpido.
Con una biblioteca cada vez mayor de contenido de video de formato largo, DPG Media reconoce la importancia de administrar y mejorar de manera eficiente los metadatos del video, como la información del actor, el género, el resumen de los episodios, el estado de ánimo del video y más. Tener metadatos descriptivos es clave para proporcionar descripciones precisas de guías de televisión, mejorar las recomendaciones de contenido y mejorar la capacidad del consumidor para explorar contenido que se alinee con sus intereses y estado de ánimo actual.
Esta publicación muestra cómo DPG Media introdujo procesos impulsados por IA utilizando amazon Bedrock y amazon Transcribe en sus canales de publicación de videos en solo 4 semanas, como una evolución hacia sistemas de anotación más automatizados.
El desafío: extraer y generar metadatos a escala
DPG Media recibe producciones de video acompañadas de una amplia gama de materiales de marketing como medios visuales y breves descripciones. Estos materiales a menudo carecen de estandarización y varían en calidad. Como resultado, los productores de DPG Media deben ejecutar un proceso de selección para consumir y comprender el contenido lo suficiente como para generar los metadatos faltantes, como breves resúmenes. Para algunos contenidos, se realiza una selección adicional para generar subtítulos y subtítulos.
A medida que DPG Media crece, necesita una forma más escalable de capturar metadatos que mejore la experiencia del consumidor en los servicios de vídeo en línea y ayude a comprender las características clave del contenido.
Los siguientes fueron algunos desafíos iniciales en la automatización:
- Diversidad lingüística – Los servicios presentan espectáculos tanto en holandés como en inglés. Algunos programas locales presentan dialectos flamencos, que pueden resultar difíciles de entender para algunos modelos de idiomas grandes (LLM).
- Variabilidad en el volumen de contenido. – Ofrecen una variedad de volúmenes de contenido, desde películas de un solo episodio hasta series de varias temporadas.
- Frecuencia de lanzamiento – Diariamente se lanzan nuevos programas, episodios y películas.
- Agregación de datos – Los metadatos deben estar disponibles en el activo de nivel superior (programa o película) y deben agregarse de manera confiable en las diferentes temporadas.
Descripción general de la solución
Para abordar los desafíos de la automatización, DPG Media decidió implementar una combinación de técnicas de inteligencia artificial y metadatos existentes para generar contenido y descripciones de categorías, estados de ánimo y contexto nuevos y precisos.
El proyecto se centró únicamente en el procesamiento de audio debido a su rentabilidad y tiempo de procesamiento más rápido. No fue necesario el análisis de datos de vídeo con IA para generar metadatos detallados, precisos y de alta calidad.
El siguiente diagrama muestra el proceso de generación de metadatos desde la transcripción de audio hasta los metadatos detallados.
La arquitectura general de la canalización de metadatos consta de dos pasos principales:
- Generar transcripciones de pistas de audio: Utilice modelos de reconocimiento de voz para generar transcripciones precisas del contenido de audio.
- Generar metadatos: utilice LLM para extraer y generar metadatos detallados a partir de las transcripciones.
En las siguientes secciones, analizamos los componentes del oleoducto con más detalle.
Paso 1. Genera transcripciones de pistas de audio.
Para generar las transcripciones de audio necesarias para la extracción de metadatos, el equipo de DPG Media evaluó dos estrategias de transcripción diferentes: Whisper-v3-grandeque requiere al menos 10 GB de vRAM y un alto procesamiento operativo, y amazon Transcribe, un servicio administrado con el beneficio adicional de actualizaciones automáticas de modelos de AWS a lo largo del tiempo y registro de los oradores. La evaluación se centró en dos factores clave: precio-rendimiento y calidad de la transcripción.
Para evaluar la calidad de la precisión de la transcripción, el equipo comparó los resultados con los subtítulos reales en un conjunto de pruebas grande, utilizando las siguientes métricas:
- Tasa de error de palabras (WER) – Esta métrica mide el porcentaje de palabras que se transcriben incorrectamente en comparación con la verdad fundamental. Un WER más bajo indica una transcripción más precisa.
- Tasa de error de coincidencia (MER) – MER evalúa la proporción de palabras correctas que coincidieron con precisión en la transcripción. Un MER más bajo significa una mayor precisión.
- Información de palabras perdida (WIL) – Esta métrica cuantifica la cantidad de información perdida debido a errores de transcripción. Un WIL más bajo sugiere menos errores y una mejor retención del contenido original.
- Información de Word preservada (WIP) – WIP es lo opuesto a WIL, indica la cantidad de información capturada correctamente. Una puntuación WIP más alta refleja una transcripción más precisa.
- Golpes – Esta métrica cuenta la cantidad de palabras transcritas correctamente, lo que brinda una medida sencilla de precisión.
Ambos experimentos de transcripción de audio arrojaron resultados de alta calidad sin la necesidad de incorporar video o una mayor diarioización del hablante. Para obtener más información sobre la registro de los hablantes en otros casos de uso, consulte Optimice la registro utilizando la IA como tecnología de asistencia: la historia de ZOO Digital.
Teniendo en cuenta los distintos esfuerzos de desarrollo y mantenimiento que requieren las diferentes alternativas, DPG Media eligió amazon Transcribe para el componente de transcripción de su sistema. Este servicio administrado ofrecía conveniencia, permitiéndoles concentrar sus recursos en obtener datos completos y altamente precisos de sus activos, con el objetivo de lograr una precisión cualitativa del 100%.
Paso 2. Generar metadatos
Ahora que DPG Media tiene la transcripción de los archivos de audio, utilizan LLM a través de amazon Bedrock para generar las distintas categorías de metadatos (resúmenes, género, estado de ánimo, eventos clave, etc.). amazon Bedrock es un servicio totalmente administrado que ofrece una selección de modelos básicos (FM) de alto rendimiento de empresas líderes en inteligencia artificial como AI21 Labs, Anthropic, Cohere, Meta, Mistral ai, Stability ai y amazon a través de una única API, junto con una Amplio conjunto de capacidades para crear aplicaciones de IA generativa con seguridad, privacidad e IA responsable.
A través de amazon Bedrock, DPG Media seleccionó el modelo Anthropic Claude 3 Sonnet basándose en pruebas internas y el Abrazando la cara LMSYS Chatbot Arena Tabla de clasificación por su razonamiento y desempeño en el idioma holandés. Trabajando en estrecha colaboración con los consumidores finales, el equipo de DPG Media ajustó las indicaciones para asegurarse de que los metadatos generados coincidieran con el formato y estilo esperado.
Después de que el equipo generó metadatos a nivel de video individual, el siguiente paso fue agregar estos metadatos a lo largo de una serie completa de episodios. Este era un requisito crítico, porque las recomendaciones de contenido en un servicio de transmisión generalmente se hacen a nivel de serie o película, en lugar de a nivel de episodio.
Para generar resúmenes y metadatos a nivel de serie, el equipo de DPG Media reutilizó los metadatos a nivel de video generados previamente. Alimentaron los resúmenes de manera ordenada y estructurada, junto con un mensaje del sistema específicamente diseñado, desde amazon Bedrock hasta Anthropic Claude 3 Sonnet.
Usar los resúmenes en lugar de las transcripciones completas de los episodios fue suficiente para obtener datos agregados de alta calidad y fue más rentable, porque muchas de las series de DPG Media tienen tiradas largas.
La solución también almacena la asociación directa entre cada tipo de metadatos y su correspondiente mensaje del sistema, lo que hace que sea sencillo ajustar, eliminar o agregar mensajes según sea necesario, similar a los ajustes realizados durante el proceso de desarrollo. Esta flexibilidad les permite adaptar la generación de metadatos a los requisitos comerciales en evolución.
Para evaluar la calidad de los metadatos, el equipo utilizó métricas LLM sin referencias, inspiradas en LangSmith. Este enfoque utilizó un LLM secundario para evaluar los resultados en función de métricas personalizadas, como si el resumen es fácil de entender, si contiene todos los eventos importantes de la transcripción y si hay alucinaciones en el resumen generado. El LLM secundario se utiliza para evaluar los resúmenes a gran escala.
Resultados y lecciones aprendidas
La implementación del proceso de metadatos impulsado por IA ha sido un viaje transformador para DPG Media. Su enfoque ahorra días de trabajo generando metadatos para una serie de televisión.
DPG Media eligió amazon Transcribe por su facilidad de transcripción y bajo mantenimiento, con el beneficio adicional de mejoras incrementales realizadas por AWS a lo largo de los años. Para la generación de metadatos, DPG Media eligió Anthropic Claude 3 Sonnet en amazon Bedrock, en lugar de crear integraciones directas con varios proveedores de modelos. Se agradeció la flexibilidad para experimentar con múltiples modelos y hay planes para probar Anthropic Claude Opus cuando esté disponible en la región de AWS deseada.
DPG Media decidió lograr un equilibrio entre la inteligencia artificial y la experiencia humana al hacer que los resultados generados por el oleoducto sean validados por humanos. Se eligió este enfoque porque los resultados estarían expuestos a los clientes finales y los sistemas de inteligencia artificial a veces pueden cometer errores. El objetivo no era reemplazar a las personas sino mejorar sus capacidades mediante una combinación de curación humana y automatización.
Transformar la experiencia de visualización de videos no se trata simplemente de agregar más descripciones, sino de crear una experiencia de usuario más rica y atractiva. Al implementar procesos impulsados por IA, DPG Media tiene como objetivo ofrecer contenido mejor recomendado a los usuarios, fomentar una comprensión más profunda de su biblioteca de contenido y avanzar hacia sistemas de anotación más automatizados y eficientes. Esta evolución promete no sólo optimizar las operaciones sino también alinear la entrega de contenidos con los hábitos de consumo modernos y los avances tecnológicos.
Conclusión
En esta publicación, compartimos cómo DPG Media introdujo procesos impulsados por IA utilizando amazon Bedrock en sus procesos de publicación de videos. Esta solución puede ayudar a acelerar la extracción de metadatos de audio, crear una experiencia de usuario más atractiva y ahorrar tiempo.
Le animamos a obtener más información sobre cómo obtener una ventaja competitiva con potentes aplicaciones de IA generativa visitando amazon Bedrock y probando esta solución en un conjunto de datos relevante para su negocio.
Acerca de los autores
Lucas Desard es ingeniero GenAI en DPG Media. Ayuda a DPG Media a integrar la IA generativa de manera eficiente y significativa en varios procesos de la empresa.
Tom Lauwers es ingeniero de aprendizaje automático en el equipo de personalización de video de DPG Media. Crea y diseña los sistemas de recomendación para las plataformas de vídeo de formato largo de DPG Media, dando soporte a marcas como VTM GO, Streamz y RTL play.
Sam Landuydt es el Gerente de Área de Recomendación y Búsqueda en DPG Media. Como gerente del equipo, guía a los ingenieros de software y de aprendizaje automático en la creación de sistemas de recomendación y soluciones de inteligencia artificial generativa para la empresa.
Irina Radu es un gerente de participación en la creación de prototipos, parte de AWS EMEA Prototyping and Cloud Engineering. Ayuda a los clientes a aprovechar al máximo la última tecnología, innovar más rápido y pensar en grande.
Fernanda MachadoAWS Prototyping Architect, ayuda a los clientes a dar vida a sus ideas y a utilizar las mejores prácticas más recientes para aplicaciones modernas.
andres shvedarquitecto sénior de prototipos de AWS, ayuda a los clientes a crear soluciones empresariales que utilizan innovaciones en aplicaciones modernas, big data e inteligencia artificial.