LEC supera los mejores modelos de su clase, como GPT-4o, al combinar la eficiencia de un clasificador ML con la comprensión del lenguaje de un LLM
Imagínese estar sentado en una sala de juntas, discutiendo la tecnología más transformadora de nuestro tiempo (la inteligencia artificial) y darse cuenta de que estamos viajando en un cohete sin un cinturón de seguridad confiable. La Declaración de Bletchley, presentada durante la Cumbre de Seguridad de la IA organizada por el gobierno del Reino Unido y respaldada por 29 países, captura este sentimiento a la perfección (1):
“Existe la posibilidad de que se produzcan daños graves, incluso catastróficos, ya sean deliberados o no, derivados de las capacidades más importantes de estos modelos de IA”.
Sin embargo, Los enfoques de seguridad de la IA existentes obligan a las organizaciones a realizar un compromiso imposible de lograr entre costo, velocidad y precisión.. Los clasificadores tradicionales de aprendizaje automático luchan por capturar las sutilezas del lenguaje natural y los LLM, aunque son potentes, introducen una importante sobrecarga computacional, lo que requiere llamadas de modelos adicionales que aumentan los costos de cada verificación de seguridad de la IA.
Nuestro equipo (Mason Sawtell, Sandi Besen, Maestro de Tula, Jim Brown), introduce un enfoque novedoso llamado LEC (Layer Enhanced Classification).
Demostramos que LEC combina la eficiencia computacional de un clasificador de aprendizaje automático con la comprensión sofisticada del lenguaje de un LLM, para que no tenga que elegir entre costo, velocidad y precisión. LEC supera a los mejores modelos de su clase, como GPT-4o, y a los modelos específicamente entrenados para identificar contenido inseguro e inyecciones rápidas. Lo que es mejor aún, creemos que LEC se puede modificar para abordar tareas de clasificación de texto no relacionadas con la seguridad de la IA, como análisis de sentimientos, clasificación de intenciones, categorización de productos y más.
Las implicaciones son profundas. Ya sea usted un líder tecnológico que navega por el complejo terreno de la seguridad de la IA, un gerente de producto que mitiga riesgos potenciales o un ejecutivo que traza una estrategia de innovación responsable, nuestro enfoque ofrece una solución escalable y adaptable.
Se pueden encontrar más detalles en el documento completoen la preimpresión de Arxiv(2) o en el artículo resumido de Tula Masterman sobre el artículo.
La IA responsable se ha convertido en una prioridad fundamental para los líderes tecnológicos de todo el ecosistema, desde desarrolladores de modelos como Anthropic, OpenAI, Meta, Google e IBM hasta firmas de consultoría empresarial y proveedores de servicios de IA. A medida que se acelera la adopción de la IA, su importancia se vuelve aún más pronunciada.
Nuestra investigación se centra específicamente en dos desafíos fundamentales en la seguridad de la IA: la seguridad del contenido y la detección rápida de inyecciones. La seguridad del contenido se refiere al proceso de identificar y prevenir la generación de contenido dañino, inapropiado o potencialmente peligroso que podría representar riesgos para los usuarios o violar pautas éticas. La inyección rápida implica detectar intentos de manipular sistemas de IA mediante la elaboración de mensajes de entrada diseñados para eludir los mecanismos de seguridad o obligar al modelo a producir resultados poco éticos.
Para avanzar en el campo de la IA ética, aplicamos las capacidades de LEC a casos de uso de IA responsable en el mundo real. Nuestra esperanza es que esta metodología se adopte ampliamente, ayudando a que todos los sistemas de IA sean menos vulnerables a la explotación.
Seleccionamos un conjunto de datos de seguridad de contenido de 5000 ejemplos para probar LEC tanto en clasificación binaria (2 categorías) como multiclase (>2 categorías). Utilizamos el conjunto de datos SALAD Data de OpenSafetyLab (3) para representar contenido inseguro y el conjunto de datos “LMSYS-Chat-1M” de LMSYS, para representar contenido seguro (4).
Para la clasificación binaria, el contenido es “seguro” o “inseguro”. Para la clasificación de clases múltiples, el contenido se clasifica como “seguro” o se asigna a una categoría específica “insegura”.
Comparamos los modelos entrenados con LEC con GPT-4o (ampliamente reconocido como líder de la industria), Llama Guard 3 1B y Llama Guard 3 8B (modelos de propósito especial entrenados específicamente para abordar tareas de seguridad de contenido). Descubrimos que los modelos que utilizan LEC superaron a todos los modelos con los que los comparamos utilizando tan solo 20 ejemplos de entrenamiento para clasificación binaria y 50 ejemplos de entrenamiento para clasificación multiclase.
El modelo LEC de mayor rendimiento logró una puntuación F1 ponderada (mide qué tan bien se equilibra un sistema haciendo predicciones correctas y minimizando errores) de 0,96 de una puntuación máxima de 1 en la tarea de clasificación binaria en comparación con la puntuación de 0,82 de GPT-4o o la puntuación de LlamaGuard 8B. de 0,71.
Esto significa que con tan solo 15 ejemplos, utilizando LEC se puede entrenar un modelo para superar a los líderes de la industria en la identificación de contenido seguro o inseguro a una fracción del costo computacional.
Seleccionamos un conjunto de datos de inyección rápida utilizando el conjunto de datos de inyección rápida de SPML Chatbot. Elegimos el conjunto de datos SPML debido a su diversidad y complejidad a la hora de representar escenarios de chatbots del mundo real. Este conjunto de datos contenía pares de mensajes del sistema y del usuario para identificar mensajes del usuario que intentan desafiar o manipular el mensaje del sistema. Esto es especialmente relevante para las empresas que implementan chatbots públicos que solo están destinados a responder preguntas sobre dominios específicos.
Comparamos los modelos entrenados con LEC con GPT-4o (un líder de la industria) y deBERTa v3 Prompt injection v2 (un modelo entrenado específicamente para identificar inyecciones rápidas). Descubrimos que los modelos que usaban LEC superaron tanto a GPT-4o usando 55 ejemplos de entrenamiento como al modelo de propósito especial usando tan solo 5 ejemplos de entrenamiento.
El modelo LEC de mayor rendimiento logró una puntuación F1 ponderada de 0,98 de una puntuación máxima de 1 en comparación con la puntuación de GPT-4o de 0,92 o la puntuación de 0,73 de deBERTa v2 Prompt injection v2.
Esto significa que con tan solo cinco ejemplos, utilizando LEC se puede entrenar un modelo para superar a los líderes de la industria en la identificación de ataques de inyección rápida.
Los resultados completos y los detalles de la implementación de la experimentación se pueden encontrar en la preimpresión de Arxiv.
A medida que las organizaciones integran cada vez más la IA en sus operaciones, garantizar la seguridad y la integridad de las interacciones impulsadas por la IA se ha convertido en una misión crítica. LEC proporciona una forma sólida y flexible de garantizar que se detecte información potencialmente insegura, lo que reduce el riesgo operativo y aumenta la confianza del usuario final. Hay varias formas de incorporar modelos LEC a su kit de herramientas de seguridad de IA para evitar vulnerabilidades no deseadas al utilizar sus herramientas de IA, incluso durante la inferencia de LM, antes/después de la inferencia de LM e incluso en escenarios de múltiples agentes.
Durante la inferencia LM
Si está utilizando un modelo de código abierto o tiene acceso al funcionamiento interno del modelo de código cerrado, puede utilizar LEC como parte de su canal de inferencia para la seguridad de la IA casi en tiempo real. Esto significa que si surge algún problema de seguridad mientras la información viaja a través del modelo de lenguaje, se puede detener la generación de cualquier resultado. Un ejemplo de cómo podría verse esto se puede ver en la figura 1.
Antes / Después de la Inferencia LM
Si no tiene acceso al funcionamiento interno del modelo de lenguaje o desea verificar problemas de seguridad como una tarea separada, puede usar un modelo LEC antes o después de llamar a un modelo de lenguaje. Esto hace que LEC sea compatible con modelos de código cerrado como las familias Claude y GPT.
La creación de un clasificador LEC en su proceso de implementación puede evitarle pasar contenido potencialmente dañino a su LM y/o verificar si hay contenido dañino antes de devolver un resultado al usuario.
Uso de clasificadores LEC con agentes
Los sistemas de IA agentes pueden amplificar cualquier acción no deseada existente, lo que lleva a un efecto compuesto de consecuencias no deseadas. Los clasificadores LEC se pueden utilizar en diferentes momentos a lo largo de un escenario agente para proteger al agente de recibir o producir resultados dañinos. Por ejemplo, al incluir modelos LEC en su arquitectura agencial, puede:
- Comprueba que la solicitud está bien para empezar a trabajar.
- Asegúrese de que una llamada a una herramienta invocada no infrinja ninguna directriz de seguridad de la IA (por ejemplo, generar temas de búsqueda inapropiados para una búsqueda de palabras clave)
- Asegúrese de que la información devuelta a un agente no sea dañina (por ejemplo, los resultados devueltos por la búsqueda de RAG o la búsqueda de Google sean “seguros”)
- Validar la respuesta final de un agente antes de devolvérsela al usuario.
Cómo implementar LEC basado en el acceso al modelo de lenguaje
Las empresas con acceso al funcionamiento interno de los modelos pueden integrar LEC directamente dentro del proceso de inferencia, lo que permite un monitoreo continuo de la seguridad durante todo el proceso de generación de contenido de la IA. Cuando se utilizan modelos de código cerrado a través de API (como es el caso de GPT-4), las empresas no tienen acceso directo a la información subyacente necesaria para entrenar un modelo LEC. En este escenario, LEC se puede aplicar antes y/o después de las llamadas de modelo. Por ejemplo, antes de una llamada a la API, la entrada se puede examinar en busca de contenido no seguro. Después de la llamada, el resultado se puede validar para garantizar que se alinee con los protocolos de seguridad empresarial.
No importa qué forma elija implementar LEC, el uso de sus potentes capacidades le proporciona una seguridad de contenido superior y una protección de inyección rápida que las técnicas existentes en una fracción del tiempo y costo.
La clasificación mejorada por capas (LEC) es el cinturón de seguridad para ese cohete con IA en el que estamos.
La propuesta de valor es clara: los modelos de seguridad de IA de LEC pueden mitigar el riesgo regulatorio, ayudar a garantizar la protección de la marca y mejorar la confianza de los usuarios en las interacciones impulsadas por la IA. Señala una nueva era en el desarrollo de la IA en la que la precisión, la velocidad y el costo no son prioridades en competencia y las medidas de seguridad de la IA pueden abordarse tanto en el momento de la inferencia, como antes o después del tiempo de inferencia.
En nuestros experimentos de seguridad de contenidos, los de mayor rendimiento El modelo LEC logró una puntuación F1 ponderada de 0,96 sobre 1 en clasificación binaria, superando significativamente la puntuación de GPT-4o de 0,82 y la puntuación de LlamaGuard 8B de 0,71 – y esto se logró con tan solo 15 ejemplos de entrenamiento. De manera similar, en la detección inmediata de una inyección, Nuestro modelo LEC superior alcanzó una puntuación F1 ponderada de 0,98, en comparación con el 0,92 del GPT-4o. y deBERTa v2 Prompt Inyección v2 0.73, y se logró con solo 55 ejemplos de entrenamiento. Estos resultados no sólo demuestran un rendimiento superior, sino que también resaltan la notable capacidad de LEC para lograr una alta precisión con datos de entrenamiento mínimos.
Aunque nuestro trabajo se centró en el uso de modelos LEC para casos de uso de seguridad de IA, anticipamos que nuestro enfoque se puede utilizar para una variedad más amplia de tareas de clasificación de texto. Alentamos a la comunidad de investigación a utilizar nuestro trabajo como un trampolín para explorar qué más se puede lograr: abrir nuevos caminos para sistemas de IA más inteligentes, más seguros y más confiables.