Introducción
En el mercado altamente competitivo de hoy, las empresas se esfuerzan por comprender y resolver las quejas de los consumidores de manera efectiva. Las quejas de los consumidores pueden arrojar luz sobre una amplia gama de problemas, desde defectos del producto y mal servicio al cliente hasta errores de facturación y preocupaciones de seguridad. Desempeñan un papel crucial en el circuito de retroalimentación (con respecto a productos, servicios o experiencias) entre las empresas y sus clientes. Analizar y comprender estos quejas puede proporcionar información valiosa sobre mejoras de productos o servicios, satisfacción del cliente y crecimiento empresarial general. En este artículo, exploraremos cómo aprovechar la Doctran Biblioteca Python para analizar Quejas del consumidorextraer conocimientos y tomar decisiones basadas en datos.
Objetivos de aprendizaje
En este artículo, podrás:
- Aprender acerca doctoran biblioteca de Python y sus características clave
- Conozca el papel de Doctran y LLM en la transformación y análisis de documentos.
- Explore seis tipos de transformaciones de documentos compatibles con doctoranincluida la extracción, redacción, interrogación, refinamiento, resumen y traducción.
- Obtenga una comprensión general de cómo convertir datos textuales sin procesar de quejas de los consumidores en información procesable.
- Entender la doctrina documento estructura de datos, clase ExtractProperty para definir un esquema para extraer propiedades
Este artículo fue publicado como parte del Blogatón de ciencia de datos.
Doctran
Doctran es un estado del arte Pitón Biblioteca diseñada para la transformación y análisis de documentos. Proporciona un conjunto de funciones para preprocesar datos de texto, extraer información clave, categorizar/clasificar, interrogar, resumir la información y traducir texto a otros idiomas. Doctran utiliza LLM (Modelos de lenguaje grande) como GPT abierto ai Modelos basados en PNL y código abierto. bibliotecas para diseccionar datos textuales.
Admite lo siguiente seis tipos de transformaciones de documentos:
- Extracto: Para extraer funciones/propiedades útiles de un documento.
- Redactar: Para eliminar Información de identificación personal (PII) como nombre, identificación de correo electrónico, número de teléfono, etc. de un documento antes de enviar los datos a Abierto ai. Internamente hace uso de espacio biblioteca para eliminar la información confidencial.
- Interrogar: Para convertir el documento en pregunta y respuesta formato.
- Refinar: Eliminar cualquier contenido de un documento que no pertenezca a un conjunto predefinido de temas.
- Resumir: Presentar el documento como un documento conciso, completo y significativo. resumen.
- Traducir: Traducir el documento a otros idiomas.
La integración también está disponible en LangChain. marco interior transformadores_documentos módulo. LangChain es un marco de vanguardia para construir LLM aplicaciones potenciadas.
LangChain proporciona la flexibilidad de explorar y utilizar una amplia gama de código abierto y cerrado. LLM modelos. Permite conectarse sin problemas a diversas fuentes de datos externas, como PDF, archivos de texto, hojas de cálculo de Excel, PPT etc. También permite experimentar con diferentes indicaciones, participar en ingeniería de indicaciones, aprovechar cadenas y agentes integrados, y más.
Dentro de transformadores_documentos módulo de Cadena Langhay tres implementaciones: DoctranPropertyExtractor, DoctranQATransformery DoctranTextTraductor. Estos se utilizan para Extracto, Interrogary Traducir transformaciones de documentos, respectivamente.
Instalación
Doctran se puede instalar fácilmente usando pepita dominio.
pip install doctran
Habiendo conocido sobre doctoran biblioteca, ahora exploremos diferentes tipos de transformaciones de documentos disponibles en doctoran utilizando la siguiente queja del consumidor entre comillas triples (“`).
“`
26 de noviembre de 2021
El gerente
Departamento de servicio al cliente
Tienda Tauro
Nueva Delhi – 110023
Asunto: Reclamación por lavadora “VIP” defectuosa
Estimado señor,
Compré una lavadora automática el 15 de julio de 2022, modelo no. G 24 y la factura no. es 1598.
La semana pasada, la máquina dejó de funcionar abruptamente y desde entonces no ha vuelto a funcionar a pesar de todos nuestros esfuerzos. La máquina deja de funcionar una vez finalizado el proceso de enjuague, lo que provoca muchos problemas. Además, desde el último día la máquina también ha empezado a hacer ruidos fuertes, lo que nos genera molestias.
Envíe a su técnico para que lo repare y, si es necesario, reemplácelo dentro de la semana siguiente.
Esperando una pronta respuesta
Atentamente
“`
Cargar la queja como un documento de Doctran
Para realizar la transformación de documentos usando doctoranprimero necesitamos convertir el texto sin formato en un doctoran documento. A doctoran El documento es un tipo de datos fundamental que está optimizado para la búsqueda de vectores. Representa una pieza de datos no estructurados. Consiste en contenido sin procesar y metadatos asociados.
Crear una instancia de doctoran objeto especificando OPENAI_API_KEY en el clave_ai_abierta parámetro. A continuación, analice el contenido sin procesar como un doctoran documento llamando al analizar gramaticalmente() método encima de doctoran objeto.
sample_complain = """
November 26, 2021
The Manager
Customer Service Department
Taurus shop
New Delhi – 110023
Subject: Complaint about defective ‘VIP’ washing machine
Dear Sir,
I had purchased an automatic washing machine on 15 July 2022,
model no. G 24 and the invoice no. is 1598.
Last week, the machine stopped working abruptly and has not been working
since then despite all our efforts.
The machine stops running after the rinsing process is completed,
causing a lot of problems.
Moreover, the machine since the last day or so has also started making loud noises,
creating inconvenience for us.
Please send your technician to repair it and if needed get it replaced within the following week.
Hoping for an early response
Yours truly
"""
doctran = Doctran(openai_api_key=OPENAI_API_KEY)
document = doctran.parse(content=sample_complain)
print(document.raw_content)
Producción:
DocTransformers
Una de las funciones principales de doctoran es extraer propiedades clave de un documento. Internamente hace uso de Abierto ai llamada a función para extraer propiedades (puntos de datos) de un documento. Usa OpenAI GPT-4 modelo con un límite de tokens de 8000 tokens.
GPT-4corto para Transformador generativo preentrenado 4 es un modelo de lenguaje grande multimodal desarrollado por Abierto ai. En comparación con sus predecesores, GPT-4 demuestra una capacidad mejorada para abordar tareas complejas. Además, puede utilizar entradas visuales (como imágenes, gráficos, memes, etc.) junto con el texto. El modelo ha logrado un desempeño a nivel humano en una variedad de puntos de referencia profesionales y académicos, incluido el Examen de barra uniforme.
Necesitamos definir un esquema creando instancias Extraer propiedad clase para cada una de las propiedades que queremos extraer. El esquema consta de varios elementos clave: una propiedad nombrea descripción, tipo de datosa lista de valores seleccionables y un requerido flag, que es un indicador booleano.
Aquí hemos especificado cuatro propiedades – Categoría, Sentimiento, Agresividad y Idioma.
from doctran import ExtractProperty
properties = (
ExtractProperty(
name="Category",
description="What type of consumer complaint this is",
type="string",
enum=("Product or Service", "Wait Time", "Delivery", "Communication Gap", "Personnel"),
required=True
),
ExtractProperty(
name="Sentiment",
description = "Assess the polarity/sentiment",
type="string",
enum = ("Positive", "Negative", "Neutral"),
required=True
),
ExtractProperty(
name="Aggressiveness",
description="""describes how aggressive the complaint is,
the higher the number the more aggressive""",
type="number",
enum=(1, 2, 3, 4, 5),
required=True
),
ExtractProperty(
name="Language",
type="string",
description = "source language",
enum = ("English", "Hindi", "Spanish", "Italian", "German"),
required=True
)
)
Para recuperar las propiedades, podemos llamar al extracto() función en el documento. Esta función toma la propiedades como parámetro.
extracted_doc = await document.extract(properties=properties).execute()
el extracto La operación devuelve un nuevo documento con las propiedades proporcionadas en propiedades_extraídas llave.
print(extracted_doc.extracted_properties)
Producción:
2. Interrogatorio
Doctran nos permite convertir el contenido de un documento en un Preguntas y respuestas formato. Las consultas de los usuarios suelen formularse como preguntas. Por lo tanto, para mejorar los resultados de búsqueda cuando se utiliza una base de datos vectorial, puede resultar útil transformar la información en preguntas. La creación de índices a partir de estas preguntas permite una mejor recuperación del contexto en comparación con la indexación del texto original.
Para interrogar el documento, utilice la función integrada. interrogar() función. Devuelve un nuevo documento y el conjunto generado de Preguntas y respuestas está disponible en el interior propiedades_extraídas atributo.
interrogated_doc = await document.interrogate().execute()
print(interrogated_doc.extracted_properties('questions_and_answers'))
Producción:
3. Resumen
Usando doctoran, también podemos generar un resumen conciso y significativo del texto original. Invocar el resumir() Función para resumir el documento. Además, especifique el límite_token para configurar el tamaño del resumen.
summarized_doc = await document.summarize(token_limit=30).execute()
print(summarized_doc.transformed_content)
Producción:
4. Traducción
Traducir documentos a otros idiomas puede resultar útil, especialmente cuando se espera que los usuarios consulten la base de conocimientos en diferentes idiomas o cuando no hay modelos de integración de última generación disponibles para un idioma determinado.
La traducción de idiomas para nuestro caso de uso de quejas de los consumidores puede resultar útil para empresas globales con bases de clientes multilingües. Usando el incorporado traducir() función podemos traducir la información a otros idiomas como hindi, Español, italiano, Alemán etc.
translated_doc = await document.translate(language="hindi").execute()
print(translated_doc.transformed_content)
Producción:
Conclusión
En la era de la toma de decisiones basada en datos, análisis de quejas del consumidor Es un proceso vital que puede conducir a mejores productos y servicios y, en última instancia, dar como resultado una mayor satisfacción del cliente. Usando LLM y avanzado PNL Con herramientas podemos convertir los datos textuales sin procesar en conocimientos prácticos que impulsen el crecimiento y la mejora del negocio. En este artículo, discutimos sobre doctorandiferentes tipos de transformaciones de documentos respaldadas por esta biblioteca con la ayuda de quejas de los consumidores.
Conclusiones clave
- Las quejas de los consumidores no son sólo quejas, sino también valiosas fuentes de retroalimentación que pueden proporcionar información crucial para las empresas.
- El doctoran Biblioteca Python, junto con modelos de lenguajes grandes (LLM) como GPT-4, ofrece un poderoso conjunto de herramientas para transformar y analizar documentos. Admite diversas transformaciones, como extracción, redacción, interrogación, resumen y traducción.
- Capacidades de extracción de Doctran utilizando OpenAI GPT-4 El modelo puede ayudar a las empresas a extraer propiedades clave de los documentos.
- Convertir el contenido del documento en un pregunta y respuesta formatear usando Doctran La función de interrogatorio mejora la recuperación del contexto. Este enfoque es valioso para crear índices de búsqueda eficaces y facilitar mejores resultados de búsqueda.
- Las empresas con una base de clientes global pueden beneficiarse de Doctran capacidades de traducción de idiomas, haciendo que la información sea accesible en múltiples idiomas. Además, brinda la capacidad de generar información concisa y significativa. resúmenes de contenido textual.
Preguntas frecuentes
R: El propósito principal del doctoran La biblioteca de Python sirve para realizar transformación y análisis de documentos. Ofrece un conjunto de funciones para preprocesar datos de texto, extraer información valiosa, categorizar y clasificar contenido y traducir texto a diferentes idiomas. Utiliza modelos de lenguaje grande (LLM) como el de OpenAI Basado en GPT Modelos para diseccionar datos textuales.
R: Doctran puede extraer propiedades clave de documentos utilizando OpenAI GPT-4 modelo. Estas propiedades se definen en un esquema y se pueden recuperar utilizando la función extract(). Algunos ejemplos están extrayendo categoría, sentimiento, agresividad, idioma del texto sin formato.
R: Convertir el contenido del documento en un pregunta y respuesta formatear usando Doctran La función de interrogatorio mejora la recuperación de información. Permite una mejor recuperación del contexto en comparación con la indexación del texto original, lo que lo hace más adecuado para los motores de búsqueda. el incorporado interrogar() La función transforma la documento en un Formato de preguntas y respuestasmejorando los resultados de búsqueda.
R: La traducción de idiomas es crucial en el análisis de las quejas de los consumidores, particularmente para empresas con bases de clientes multilingües. Esta característica garantiza que la información sea accesible para una audiencia global. Soportes Doctran traducción de idiomas usando el incorporado traducir() Función que permite traducir documentos a varios idiomas, como hindi, Español, italiano, Alemány más.
Los medios que se muestran en este artículo no son propiedad de Analytics Vidhya y se utilizan a discreción del autor.