Esta publicación ha sido coescrita con Seunghyun Jeong, Sunwoo Lee y Eric Davis de SK Telecom.
SK Telecom (SKT), la empresa de telecomunicaciones líder de Corea del Sur que atiende a 30 millones de clientes, está a la vanguardia de la innovación en IA. En línea con su estrategia de pirámide de IA, cuyo objetivo es desbloquear el potencial de la IA para cualquier persona, en cualquier lugar y en cualquier momento, SKT ha colaborado con el programa de modelos personalizados del Centro de innovación de IA generativa de AWS (GenAIIC) para explorar modelos entrenados en dominios utilizando amazon Bedrock para empresas de telecomunicaciones específicas. casos de uso.
Esta colaboración se alinea con la visión de SKT de utilizar la experiencia en IA y asociaciones estratégicas para desarrollar productos y servicios innovadores basados en IA. Una de esas iniciativas se centró en desarrollar una solución personalizada para la respuesta a preguntas fundamentadas (Q&A) basada en documentos de referencia.
La recuperación de generación aumentada (RAG) es una técnica popular para tareas de preguntas y respuestas, que ofrece una precisión fáctica mejorada y una base de conocimientos mejorada. Sin embargo, RAG enfrenta desafíos al generar una respuesta que no coincide con el tono, estilo y modales preferidos para los casos de uso de telecomunicaciones, además de recuperar documentos irrelevantes, lo que podría generar respuestas inexactas. Para abordar esto, SKT y AWS GenAIIC intentaron utilizar la personalización de modelos para mejorar los modelos de Anthropic Claude en amazon Bedrock en tres áreas clave:
- Proporcionar respuestas concisas e informativas.
- Hacer referencia correcta a enlaces de documentos recuperados
- Responder en un tono y estilo consistente con SKT y similar a las respuestas reales.
Además, el equipo exploró cómo aumentar el rendimiento de modelos más pequeños utilizando datos sintéticos generados por modelos de lenguajes grandes (LLM) más grandes para la destilación de conocimientos y escenarios con datos de entrenamiento etiquetados limitados.
amazon Bedrock es un servicio totalmente administrado que ofrece una variedad de LLM y modelos básicos (FM), junto con capacidades como amazon Bedrock Knowledge Bases, amazon Bedrock Agents y amazon Bedrock Guardrails que pueden acelerar muchos casos de uso de IA generativa. amazon Bedrock es el único servicio totalmente administrado que le brinda la posibilidad de ajustar los modelos de Claude. amazon Bedrock ofrece una forma intuitiva y segura de ajustar los modelos Claude de Anthropic y más. El modelo Claude ajustado se puede implementar mediante amazon Bedrock y puede utilizar las capacidades de amazon Bedrock sin problemas, por ejemplo, las bases de conocimientos de amazon Bedrock para el RAG específico del dominio de telecomunicaciones o los agentes de amazon Bedrock para el uso agente.
En esta publicación, compartimos cómo SKT personaliza los modelos de Anthropic Claude para preguntas y respuestas específicas de empresas de telecomunicaciones sobre documentos técnicos de telecomunicaciones de SKT utilizando amazon Bedrock.
Descripción general de la solución
El equipo exploró combinaciones de optimización rápida, personalización (ajustes finos) y aumento de datos con datos sintéticos. Este enfoque multifacético tenía como objetivo maximizar los beneficios de cada técnica para la tarea de generación de preguntas y respuestas fundamentadas.
En las siguientes secciones, exploramos estos métodos con más detalle.
Personalización de Claude de Anthropic con optimización rápida
El ajuste fino, que está disponible a través de amazon Bedrock para varios FM, incluido Claude de Anthropic, permite la adaptación de modelos de lenguaje previamente entrenados para casos de uso específicos. Es particularmente eficaz para adaptar el estilo de respuesta y el cumplimiento del formato.
El equipo primero optimizó el mensaje del sistema, implementando pautas estandarizadas para el formato de respuestas y la citación de documentos basadas en Modelo antrópico que impulsa mejores prácticas. Las áreas de enfoque clave incluyeron:
- Presentación clara de los comandos del sistema.
- Uso consistente del formato de bloque de código.
- Respuestas personalizadas basadas en el contexto
Esta rápida ingeniería, combinada con ajustes finos, produjo mejoras sustanciales:
- Aumento de más del 50 % en la puntuación de ROUGE-3
- Más del 25% de mejora en la puntuación ROUGE-L
- Aumento de más del 4 % en la puntuación de similitud de incorporación
- Progreso significativo en la citación de referencias precisas
El proceso de mejora iterativo demostró beneficios acumulativos: las actualizaciones rápidas por sí solas mostraron mejoras del 35 al 40 por ciento en métricas clave, y el modelo personalizado final logró ganancias del 50 al 60 por ciento en algunas métricas.
Esta progresión ilustra claramente los beneficios acumulativos de la personalización del modelo a través de RAG, ingeniería rápida y ajuste fino, lo que dio como resultado un modelo que superó significativamente tanto a la versión base como a la versión actualizada rápidamente en términos de puntajes ROUGE y precisión de las citas. Puntuación colorete Mide la similitud entre las verdades fundamentales y los resultados generados calculando la superposición de palabras de N-gramas. La siguiente tabla resume estas mejoras.
LLM | Actualización inmediata | Sintonia FINA | Mejora relativa con respecto al valor inicial | ||
ROJO-3 | ROJO-L | Precisión de las citas | |||
Soneto de Claude 3 de Anthropic | – | – | base | base | base |
Soneto de Claude 3 de Anthropic | – | +38,30% | +13,4% | +52,94% | |
Soneto de Claude 3 de Anthropic | +58,1% | +26,8% | +70,59% |
Datos sintéticos para realizar ajustes
Para abordar el desafío de los datos de entrenamiento etiquetados de alta calidad limitados, el equipo exploró técnicas de generación de datos sintéticos. Este enfoque también facilita la destilación del conocimiento de LLM más grandes a modelos más pequeños y específicos, ofreciendo beneficios como menor latencia y costo.
El equipo realizó experimentos controlados utilizando:
- Un conjunto de referencia de 500 muestras reales del terreno
- Un conjunto ampliado con 500 muestras originales y más de 1500 sintéticas.
- Un conjunto original más grande de 2000 muestras.
Los datos sintéticos se generaron utilizando Claude Sonnet 3 de Anthropic, creando nuevos pares de preguntas y respuestas sobre los mismos documentos recuperados utilizados en ejemplos de verdad sobre el terreno.
Los resultados se evaluaron utilizando tanto una comparación basada en LLM como una evaluación de preferencia humana. Los evaluadores humanos clasificaron ciegamente los resultados del modelo, con puntuaciones asignadas según la preferencia (Mejor: 4, Segundo: 3, Tercero: 2, Peor: 1). La siguiente tabla muestra los resultados de las puntuaciones de evaluación de las preferencias humanas.
Rango | Modelo | Puntuación acumulada (mejor posible: 160) |
1 | Afinado con 2000 muestras originales. | 114 |
2 | Afinado con 500 muestras originales y 1500 sintéticas. | 112 |
3 | Afinado con 500 muestras originales. | 85 |
4 | Sin ajuste (línea de base) | 84 |
Algunos hallazgos clave incluyen:
- Los conjuntos de entrenamiento pequeños (500 muestras) mostraron una mejora mínima con respecto al valor inicial.
- Los conjuntos de entrenamiento más grandes (2000 muestras) obtuvieron puntuaciones considerablemente más altas
- Los datos aumentados sintéticamente se comportaron de manera similar a los datos originales de tamaño equivalente
Aunque siempre es ideal tener un gran volumen de datos de capacitación específicos de un dominio, muchas empresas tienen conjuntos de datos disponibles limitados. En tales escenarios, los datos sintéticos pueden desempeñar un papel crucial en lugar de los datos originales. Esto demuestra el potencial de los datos sintéticos para la personalización de modelos.
Conclusión
La colaboración de SK Telecom con AWS GenAIIC muestra el compromiso de la empresa con el desarrollo de soluciones innovadoras de IA para los desafíos de las telecomunicaciones. Al utilizar amazon Bedrock para personalizar los modelos Claude de Anthropic, SKT ha logrado importantes mejoras de rendimiento para casos de uso en idioma coreano específicos de las empresas de telecomunicaciones sin la necesidad de crear modelos desde cero. La prueba de concepto demostró mejoras significativas:
- ~58 % de aumento en la puntuación de ROUGE-3
- ~27 % de aumento en la puntuación de ROUGE-L
- Mejora sustancial en la devolución de enlaces de referencia correctos
Este enfoque, combinado con técnicas de generación de datos sintéticos, se alinea con la estrategia de pirámide de IA de SKT, lo que permite realizar pruebas y desarrollar nuevos enfoques más rápidamente. A medida que SKT continúa enfocándose en áreas clave como asistentes personales de IA, atención médica de IA y centros de datos de IA, esta colaboración con AWS representa un paso significativo en su evolución de la IA y su competitividad a largo plazo en el panorama global de la IA.
Para aquellos interesados en trabajar con AWS en proyectos similares, visite el Centro de innovación de IA generativa.
Acerca de los autores
Sung Min Hong es científico aplicado senior en el Centro de innovación de IA generativa de AWS, donde ayuda a acelerar la variedad de casos de uso de los clientes de AWS. Antes de unirse a amazon, Sungmin fue investigador postdoctoral en la Facultad de Medicina de Harvard. Tiene un doctorado. en Ciencias de la Computación de la Universidad de Nueva York. Fuera del trabajo, a Sungmin le gusta hacer senderismo, leer y cocinar.
Sujeong Cha es arquitecta de aprendizaje profundo en el Centro de innovación de IA generativa de AWS, donde se especializa en personalización y optimización de modelos. Tiene una amplia experiencia práctica en la resolución de casos de uso empresarial de los clientes mediante el uso de IA generativa, así como soluciones tradicionales de IA/ML. Sujeong tiene una maestría en ciencia de datos de la Universidad de Nueva York.
Arijit Ghosh Chowdhury es científico del Centro de innovación de IA generativa de AWS, donde trabaja en la personalización y optimización de modelos. En su cargo, trabaja en investigación aplicada en ajustes y evaluaciones de modelos para habilitar GenAI para diversas industrias. Tiene una Maestría en Ciencias de la Computación de la Universidad de Illinois en Urbana Champaign, donde su investigación se centró en la respuesta a preguntas, la búsqueda y la adaptación de dominios.
Yiyue Qian Es científica aplicada II en el Centro de innovación de IA generativa de AWS, donde apoya la prestación de soluciones de IA generativa a los clientes de AWS. En este puesto, colabora con un equipo de expertos para desarrollar modelos innovadores basados en IA para clientes de AWS en diversas industrias. Yiyue tiene un doctorado. en Ciencias de la Computación de la Universidad de Notre Dame, donde su investigación se centró en técnicas avanzadas de aprendizaje automático y aprendizaje profundo.
Wei Chih Chen es ingeniero de aprendizaje automático en el Centro de innovación de IA generativa de AWS, donde trabaja en la personalización y optimización de modelos para LLM. También crea herramientas para ayudar a su equipo a abordar diversos aspectos del ciclo de vida del desarrollo de LLM (incluidos el ajuste, la evaluación comparativa y las pruebas de carga) que aceleran la adopción de diversos casos de uso para los clientes de AWS. Tiene una maestría en Ciencias de la Computación de UC Davis.
Hannah Marlowe es gerente sénior de personalización de modelos en el Centro de innovación de IA generativa de AWS. Su equipo se especializa en ayudar a los clientes a desarrollar soluciones diferenciadoras de IA generativa utilizando sus datos únicos y patentados para lograr resultados comerciales clave. Tiene un doctorado en Física de la Universidad de Iowa, con especialización en análisis de rayos x astronómicos y desarrollo de instrumentación. Fuera del trabajo, se la puede encontrar haciendo senderismo, ciclismo de montaña y esquí en las montañas de Colorado.
Seunghyun Jeong (Steve) es líder del equipo de aplicaciones de plataforma en SKT. Es responsable de comercializar la Plataforma de Inteligencia Global (GIP), que proporciona modelos y herramientas de IA. Durante la mayor parte de su carrera, ha sido PM desarrollando varios servicios móviles, como billetera móvil, transmisión de moda y servicios de inicio de sesión unificado para SK. Su equipo está ampliando la entrega de modelos y funciones para facilitar que los equipos internos apliquen la IA, contribuyendo a la transformación de la IA de SKT. Antes de ingresar al espacio de la IA, fue gerente de productos, desarrollando y operando varios servicios móviles, como billetera móvil, transmisión de moda y servicios de inicio de sesión unificado para EE. UU. y Corea.
Sunwoo Lee (Lois) es el líder del equipo de evaluación y construcción de datos dentro de la división Global ai tech de SK Telecom. Supervisa el diseño y la construcción de datos de capacitación para modelos de lenguaje, el proceso de evaluación del desempeño del modelo y su aplicación a los servicios. Su carrera se ha centrado en la PNL dentro de TI, lo que encaja perfectamente con su experiencia en lingüística y educación del idioma coreano. Junto a su equipo de clase mundial, continúa explorando y resolviendo problemas fascinantes, como cómo optimizar el diseño de datos para el entrenamiento de modelos de lenguaje, qué tareas y métodos implementar para validar el rendimiento del modelo de lenguaje y el mejor diseño de conversaciones entre IA y humanos. .
Eric Davis es el vicepresidente del ai tech Collaboration Group en SKT. Eric supervisa colaboraciones tecnológicas con socios tecnológicos de todo el mundo para personalizar modelos de lenguajes grandes (LLM) para el ámbito de las telecomunicaciones. Sus equipos son responsables de diseñar y construir los conjuntos de datos para ajustar los LLM, así como de realizar evaluaciones comparativas de los LLM en general y para el ámbito de las telecomunicaciones. Eric tiene una Maestría en Ciencias de la Computación de Carnegie Mellon del Language Technologies Institute y una Licenciatura en Lingüística y Psicología de la Universidad de California, Los Ángeles.