Evaluación de indicaciones a escala con Prompt Management y Prompt Flows para Amazon Bedrock

A medida que la inteligencia artificial (IA) generativa continúa revolucionando todas las industrias, la importancia de una optimización rápida y eficaz mediante técnicas de ingeniería rápida se ha vuelto clave para equilibrar de manera eficiente la calidad de los resultados, el tiempo de respuesta y los costos. La ingeniería rápida se refiere a la práctica de crear y optimizar las entradas a los modelos mediante la selección de palabras, frases, oraciones, signos de puntuación y caracteres separadores adecuados para usar de manera efectiva los modelos básicos (FM) o los modelos de lenguaje extenso (LLM) para una amplia variedad de aplicaciones. Un mensaje rápido de alta calidad maximiza las posibilidades de obtener una buena respuesta de los modelos de IA generativa.

Una parte fundamental del proceso de optimización es la evaluación, y hay múltiples elementos involucrados en la evaluación de una aplicación de IA generativa. Más allá de la evaluación más común de los FM, la evaluación de los mensajes es un aspecto crítico, aunque a menudo desafiante, del desarrollo de soluciones impulsadas por IA de alta calidad. Muchas organizaciones tienen dificultades para crear y evaluar de manera consistente y eficaz sus mensajes en sus diversas aplicaciones, lo que genera un rendimiento y experiencias de usuario inconsistentes y respuestas no deseadas de los modelos.

En esta publicación, demostramos cómo implementar un sistema de evaluación de indicaciones automatizado con amazon Bedrock para que pueda optimizar su proceso de desarrollo de indicaciones y mejorar la calidad general de su contenido generado por IA. Para ello, utilizamos amazon Bedrock Prompt Management y amazon Bedrock Prompt Flows para evaluar sistemáticamente las indicaciones para sus aplicaciones de IA generativa a escala.

La importancia de una evaluación rápida

Antes de explicar la implementación técnica, analicemos brevemente por qué es fundamental la evaluación de avisos. Los aspectos clave que se deben tener en cuenta al crear y optimizar un aviso suelen ser los siguientes:

Seguro de calidad – La evaluación de indicaciones ayuda a garantizar que sus aplicaciones de IA produzcan constantemente resultados relevantes y de alta calidad para el modelo seleccionado.
Optimización del rendimiento – Al identificar y refinar indicaciones efectivas, puede mejorar el rendimiento general de sus modelos de IA generativa en términos de menor latencia y, en última instancia, mayor rendimiento.
Eficiencia de costes – Una mejor formulación de los mensajes puede conducir a un uso más eficiente de los recursos de IA, lo que podría reducir los costos asociados con la inferencia de modelos. Un buen mensaje permite el uso de modelos más pequeños y de menor costo, lo que no daría buenos resultados con un mensaje de mala calidad.
Experiencia de usuario – Las indicaciones mejoradas dan como resultado contenido generado por IA más preciso, personalizado y útil, lo que mejora la experiencia del usuario final en sus aplicaciones.

Optimizar las indicaciones para estos aspectos es un proceso iterativo que requiere una evaluación para impulsar los ajustes en las indicaciones. Es, en otras palabras, una manera de entender qué tan buena es una determinada combinación de indicaciones y modelos para lograr las respuestas deseadas.

En nuestro ejemplo, implementamos un método conocido como LLM como juezdonde un LLM se utiliza para evaluar las indicaciones en función de las respuestas que produjo con un determinado modelo, según criterios predefinidos. La evaluación de las indicaciones y sus respuestas para un LLM determinado es una tarea subjetiva por naturaleza, pero una evaluación sistemática de las indicaciones utilizando el LLM como juez le permite cuantificarla con una métrica de evaluación en una puntuación numérica. Esto ayuda a estandarizar y automatizar el ciclo de vida de las indicaciones en su organización y es una de las razones por las que este método es uno de los enfoques más comunes para la evaluación de indicaciones en la industria.

Exploremos una solución de muestra para evaluar indicaciones con LLM como juez con amazon Bedrock. También puede encontrar el ejemplo de código completo en amazon-bedrock-samples/blob/main/prompt-engineering/Prompt_Management_Flows/Prompts_evaluation_with_Prompt_Management_Flows.ipynb” target=”_blank” rel=”noopener”>Muestras de amazon Bedrock.

Prerrequisitos

Para este ejemplo, necesitará lo siguiente:

Configurar el mensaje de evaluación

Para crear un mensaje de evaluación mediante amazon Bedrock Prompt Management, siga estos pasos:

En la consola de amazon Bedrock, en el panel de navegación, seleccione Gestión rápida y luego elige Crear mensaje.
Introduzca una Nombre Para su aviso como por ejemplo prompt-evaluator y un Descripción como “Plantilla de indicaciones para evaluar respuestas rápidas con LLM como juez”. Elija Crear.

En el Inmediato En el campo, escriba su plantilla de evaluación de la solicitud. En el ejemplo, puede utilizar una plantilla como la siguiente o adaptarla según sus requisitos de evaluación específicos.

You're an evaluator for the prompts and answers provided by a generative ai model.
Consider the input prompt in the  tags, the output answer in the  tags, the prompt evaluation criteria in the  tags, and the answer evaluation criteria in the  tags.


{{input}}



{{output}}



- The prompt should be clear, direct, and detailed.
- The question, task, or goal should be well explained and be grammatically correct.
- The prompt is better if containing examples.
- The prompt is better if specifies a role or sets a context.
- The prompt is better if provides details about the format and tone of the expected answer.



- The answers should be correct, well structured, and technically complete.
- The answers should not have any hallucinations, made up content, or toxic content.
- The answer should be grammatically correct.
- The answer should be fully aligned with the question or instruction in the prompt.


Evaluate the answer the generative ai model provided in the  with a score from 0 to 100 according to the  provided; any hallucinations, even if small, should dramatically impact the evaluation score.
Also evaluate the prompt passed to that generative ai model provided in the  with a score from 0 to 100 according to the  provided.
Respond only with a JSON having:
- An 'answer-score' key with the score number you evaluated the answer with.
- A 'prompt-score' key with the score number you evaluated the prompt with.
- A 'justification' key with a justification for the two evaluations you provided to the answer and the prompt; make sure to explicitely include any errors or hallucinations in this part.
- An 'input' key with the content of the  tags.
- An 'output' key with the content of the  tags.
- A 'prompt-recommendations' key with recommendations for improving the prompt based on the evaluations performed.
Skip any preamble or any other text apart from the JSON in your answer.

Bajo Configuracionesseleccione un modelo para ejecutar evaluaciones con la solicitud. En nuestro ejemplo, seleccionamos Anthropic Claude Sonnet. La calidad de la evaluación dependerá del modelo que seleccione en este paso. Asegúrese de equilibrar la calidad, el tiempo de respuesta y el costo en consecuencia en su decisión.
Establecer el Parámetros de inferencia para el modelo. Te recomendamos que mantengas Temperatura como 0 para hacer una evaluación factual y evitar alucinaciones.

Puede probar su solicitud de evaluación con entradas y salidas de muestra utilizando el Variables de prueba y Ventana de prueba paneles.

Ahora que tiene un borrador de su mensaje, también puede crear versiones de él. Las versiones le permiten cambiar rápidamente entre diferentes configuraciones para su mensaje y actualizar su aplicación con la versión más adecuada para su caso de uso. Para crear una versión, elija Crear versión En la cima.

La siguiente captura de pantalla muestra el Generador de indicaciones página.

Configurar el flujo de evaluación

A continuación, debe crear un flujo de evaluación mediante flujos de solicitud de amazon Bedrock. En nuestro ejemplo, utilizamos nodos de solicitud. Para obtener más información sobre los tipos de nodos admitidos, consulte la documentación Tipos de nodos en flujos de solicitud. Para crear un flujo de evaluación, siga estos pasos:

En la consola amazon Bedrock, en Flujos de indicacioneselegir Crear flujo de indicaciones.
Introduzca una Nombre como prompt-eval-flowIntroduzca un Descripción como “Flujo de indicaciones para evaluar indicaciones con LLM como juez”. Elija Utilice un rol de servicio existente para seleccionar un rol del menú desplegable. Elija Crear.
Esto abrirá el Generador de flujo de indicacionesArrastre dos Indicaciones nodos al lienzo y configure los nodos según los siguientes parámetros:
- Entrada de flujo
  - Producción:
    - Nombre: documentTipo: Cadena
- Invocar (Indicaciones)
  - Nombre del nodo: Invoke
  - Definir en el nodo
  - Seleccionar modelo: Un modelo preferido para ser evaluado con sus indicaciones
  - Mensaje: {{input}}
  - Configuraciones de inferencia: según sus preferencias
  - Aporte:
    - Nombre: inputTipo: Cadena, Expresión: $.data
  - Producción:
    - Nombre: modelCompletionTipo: Cadena
- Evaluar (Indicaciones)
  - Nombre del nodo: Evaluate
  - Utilice un mensaje de su Gestión de mensajes
  - Inmediato: prompt-evaluator
  - Versión: Versión 1 (o su versión preferida)
  - Selecciona el modelo: Tu modelo preferido para evaluar tus indicaciones
  - Configuraciones de inferencia: como se establece en su solicitud
  - Aporte:
    - Nombre: inputTipo: Cadena, Expresión: $.data
    - Nombre: outputTipo: Cadena, Expresión: $.data
  - Producción
    - Nombre: modelCompletionTipo: Cadena
- Salida de flujo
  - Nombre del nodo: End
  - Aporte:
    - Nombre: documentTipo: Cadena, Expresión: $.data
Para conectar los nodos, arrastre los puntos de conexión, como se muestra en el siguiente diagrama.

Puede probar su flujo de evaluación rápida utilizando el Flujo de solicitud de prueba panel. Pase una entrada, como la pregunta “¿Qué es la computación en la nube en un solo párrafo?”. Debería devolver un JSON con el resultado de la evaluación similar al siguiente ejemplo. En el cuaderno de ejemplo de código, amazon-bedrock-samples/blob/main/prompt-engineering/Prompt_Management_Flows/Prompts_evaluation_with_Prompt_Management_Flows.ipynb” target=”_blank” rel=”noopener”>Muestras de amazon BedrockTambién incluimos la información sobre los modelos utilizados para la invocación y evaluación de nuestro resultado JSON.

{
	"answer-score": 95,
	"prompt-score": 90,
	"justification": "The answer provides a clear and technically accurate explanation of cloud computing in a single paragraph. It covers key aspects such as scalability, shared resources, pay-per-use model, and accessibility. The answer is well-structured, grammatically correct, and aligns with the prompt. No hallucinations or toxic content were detected. The prompt is clear, direct, and explains the task well. However, it could be improved by providing more details on the expected format, tone, or length of the answer.",
	"input": "What is cloud computing in a single paragraph?",
	"output": "Cloud computing is a model for delivering information technology services where resources are retrieved from the internet through web-based tools. It is a highly scalable model in which a consumer can access a shared pool of configurable computing resources, such as applications, servers, storage, and services, with minimal management effort and often with minimal interaction with the provider of the service. Cloud computing services are typically provided on a pay-per-use basis, and can be accessed by users from any location with an internet connection. Cloud computing has become increasingly popular in recent years due to its flexibility, cost-effectiveness, and ability to enable rapid innovation and deployment of new applications and services.",
	"prompt-recommendations": "To improve the prompt, consider adding details such as the expected length of the answer (e.g., 'in a single paragraph of approximately 100-150 words'), the desired tone (e.g., 'in a professional and informative tone'), and any specific aspects that should be covered (e.g., 'including examples of cloud computing services or providers').",
	"modelInvoke": "amazon.titan-text-premier-v1:0",
	"modelEval": "anthropic.claude-3-sonnet-20240229-v1:0"
}

Como muestra el ejemplo, le pedimos al FM que evaluara con puntajes separados el mensaje y la respuesta que generó el FM a partir de ese mensaje. Le pedimos que proporcionara una justificación para el puntaje y algunas recomendaciones para mejorar aún más los mensajes. Toda esta información es valiosa para un ingeniero de mensajes porque ayuda a guiar los experimentos de optimización y a tomar decisiones más informadas durante el ciclo de vida del mensaje.

Implementación de una evaluación rápida a gran escala

Hasta este punto, hemos explorado cómo evaluar un único mensaje. A menudo, las organizaciones medianas y grandes trabajan con decenas, cientos e incluso miles de variaciones de mensajes para sus múltiples aplicaciones, lo que lo convierte en una oportunidad perfecta para la automatización a gran escala. Para ello, puede ejecutar el flujo en conjuntos de datos completos de mensajes almacenados en archivos, como se muestra en el cuaderno de ejemplo.

Como alternativa, también puede confiar en otros tipos de nodos en amazon Bedrock Prompt Flows para leer y almacenar archivos en amazon Simple Storage Service (amazon S3) e implementar flujos basados en iteradores y recopiladores. El siguiente diagrama muestra este tipo de flujo. Una vez que haya establecido un mecanismo basado en archivos para ejecutar el flujo de evaluación de solicitudes en conjuntos de datos a escala, también puede automatizar todo el proceso conectándolo con sus herramientas preferidas de integración continua y desarrollo continuo (CI/CD). Los detalles de estos están fuera del alcance de esta publicación.

Mejores prácticas y recomendaciones

Con base en nuestro proceso de evaluación, aquí se presentan algunas prácticas recomendadas para un refinamiento rápido:

Mejora iterativa – Utilice los comentarios de la evaluación para perfeccionar continuamente sus indicaciones. La optimización de las indicaciones es, en última instancia, un proceso iterativo.
El contexto es clave – Asegúrate de que tus indicaciones proporcionen el contexto suficiente para que el modelo de IA genere respuestas precisas. Según la complejidad de las tareas o preguntas que responderá tu indicación, es posible que debas utilizar diferentes técnicas de ingeniería de indicaciones. Puedes consultar las pautas de ingeniería de indicaciones en la documentación de amazon Bedrock y otros recursos sobre el tema proporcionados por los proveedores de modelos.
La especificidad importa – Sea lo más específico posible en sus indicaciones y criterios de evaluación. La especificidad orienta los modelos hacia los resultados deseados.
Casos extremos de prueba – Evalúe sus indicaciones con una variedad de entradas para verificar la solidez. También puede que desee ejecutar múltiples evaluaciones en la misma indicación para comparar y probar la coherencia de la salida, lo que puede ser importante según su caso de uso.

Conclusión y próximos pasos

Al utilizar el método LLM como juez con amazon Bedrock Prompt Management y amazon Bedrock Prompt Flows, puede implementar un enfoque sistemático para la evaluación y optimización de solicitudes. Esto no solo mejora la calidad y la coherencia del contenido generado por IA, sino que también agiliza el proceso de desarrollo, lo que puede reducir los costos y mejorar las experiencias de los usuarios.

Le recomendamos que explore estas funciones más a fondo y adapte el proceso de evaluación a sus casos de uso específicos. A medida que continúe perfeccionando sus indicaciones, podrá aprovechar todo el potencial de la IA generativa en sus aplicaciones. Para comenzar, consulte la publicación completa con los ejemplos de código utilizados en esta publicación. ¡Estamos ansiosos por ver cómo usará estas herramientas para mejorar sus soluciones impulsadas por IA!

Para obtener más información sobre amazon Bedrock y sus características, visita la documentación de amazon Bedrock.

Acerca del autor

Antonio Rodriguez es arquitecto de soluciones sénior especialista en inteligencia artificial generativa en amazon Web Services. Ayuda a empresas de todos los tamaños a resolver sus desafíos, adoptar la innovación y crear nuevas oportunidades comerciales con amazon Bedrock. Además del trabajo, le encanta pasar tiempo con su familia y practicar deportes con sus amigos.

Evaluación de indicaciones a escala con Prompt Management y Prompt Flows para Amazon Bedrock

Technical Terrence Team

Vor Bio shares rally in aftermarket trading on trem-cel study data (NASDAQ:VOR)

Leave a Reply Cancel reply

Recommended.

The latest court battle could upend the crypto landscape in the US.

Vladimir Putin Says Russia Canceled African Countries’ Debts Totaling More Than $20 Billion In 2022 Bitcoin News

Tenaris reports mixed Q1 results, plans for global expansion By Investing.com

Here's what could happen to Ethereum and Bitcoin if GoodEgg launches an AI-powered social scoring system

Midjourney bans all Stability AI employees over alleged data mining

Categories

Important Links

Evaluación de indicaciones a escala con Prompt Management y Prompt Flows para Amazon Bedrock

La importancia de una evaluación rápida

Prerrequisitos

Configurar el mensaje de evaluación

Configurar el flujo de evaluación

Implementación de una evaluación rápida a gran escala

Mejores prácticas y recomendaciones

Conclusión y próximos pasos

Acerca del autor

Related

Technical Terrence Team

Vor Bio shares rally in aftermarket trading on trem-cel study data (NASDAQ:VOR)

Leave a Reply Cancel reply

Recommended.

The latest court battle could upend the crypto landscape in the US.

Vladimir Putin Says Russia Canceled African Countries’ Debts Totaling More Than $20 Billion In 2022 Bitcoin News

Tenaris reports mixed Q1 results, plans for global expansion By Investing.com

Here's what could happen to Ethereum and Bitcoin if GoodEgg launches an AI-powered social scoring system

Midjourney bans all Stability AI employees over alleged data mining

Categories

Important Links

Get daily news updates to your inbox!