En nuestra época de cazadores-recolectores, teníamos que clasificar objetos y seres como alimento, enemigos o amigos para sobrevivir. Hoy, nuestra necesidad de clasificación es menos para la conservación y más para la claridad. En esta era de sobrecarga de información, la clasificación de documentos es de considerable importancia para la gestión y el uso eficientes de la información y el conocimiento.
En este artículo, analizaremos los tipos de clasificación de documentos y cómo las técnicas de aprendizaje automático se utilizan cada vez más para este fin. También se ofrecen algunos ejemplos para comprender la relevancia de la clasificación de documentos en la vida actual, en la que se manejan muchos datos.
¿Qué es la clasificación de documentos?
La clasificación de documentos consiste en clasificar los documentos y sus elementos en distintos tipos (o clases) según su contenido, contexto e intención. El proceso de clasificación de documentos implica el análisis de las entidades textuales y visuales de los documentos y su categorización en tipos o clases predefinidos. Esto permite una fácil organización, recuperación y gestión de los datos.
La clasificación de documentos suele ser de dos tipos: clasificación visual y clasificación textual. Las veremos con más detalle en la siguiente sección.
Tipos de clasificación de documentos
El tipo de clasificación más básico se basa en lo que se clasifica: la imagen visual o el texto en sí. Veamos qué implica cada uno de ellos.
Clasificación visual
La clasificación de imágenes consiste en asignar etiquetas o nombres de categorías a contenido visual (no textual). Se trata de una tarea fundamental de visión artificial, en la que se identifica y clasifica una imagen de entrada. Por ejemplo, un algoritmo de clasificación de imágenes destinado a una obra en construcción podría identificar equipos y categorizarlos como excavadoras, carretillas elevadoras, etc. Los enfoques tradicionales para la clasificación de imágenes de documentos se basaban en características creadas a mano, segmentación de imágenes y algoritmos clásicos de aprendizaje automático como SVM y k-NN.
La clasificación visual implica capturar información sobre la textura, el color y la forma de los objetos. La segmentación de imágenes aísla áreas clave para el análisis. En los últimos años, los métodos de visión artificial y aprendizaje profundo, como las redes neuronales convolucionales (CNN), se están utilizando ampliamente en la clasificación de imágenes de documentos. Cualquier imagen digital está compuesta por cientos de miles de píxeles diminutos. La clasificación de imágenes analiza una imagen dada en forma de píxeles tratándola como una matriz de matrices. La visión artificial asigna una etiqueta a toda la imagen en función del entrenamiento a través de un análisis a nivel de píxel.
Los métodos de aprendizaje profundo como CNNS están diseñados para procesar datos de cuadrícula estructurados y pueden aprender representaciones jerárquicas, lo que los hace aptos para capturar características intrincadas dentro de las imágenes. A través del aprendizaje complejo no lineal, estas herramientas pueden capturar patrones locales, discernir dimensiones espaciales y consolidar información para una comprensión completa de la imagen. Se utilizan cada vez más en imágenes de diagnóstico biomédico, reconocimiento facial, cámaras de vigilancia y monitoreo ambiental.
Clasificación de textos
Como sugiere el nombre, la clasificación de texto se ocupa únicamente de las entidades textuales de un documento. El texto puede ser una palabra, una oración, un párrafo o incluso todo el contenido de un documento. Algunos métodos comunes que se utilizan para la clasificación de texto son el OCR basado en reglas, los enfoques de aprendizaje automático que utilizan conjuntos de datos de entrenamiento etiquetados y el aprendizaje no supervisado mediante procesamiento del lenguaje natural.
- OCR basado en reglas:
El reconocimiento óptico de caracteres en su forma más básica es una combinación de hardware y software que convierte documentos físicos impresos en texto legible y editable por máquina. El hardware incluye un escáner óptico que convierte un documento físico en una imagen y está asociado con un software que extrae texto editable de la imagen escaneada.
Los sistemas de OCR tradicionales no realizan una clasificación contextual y simplemente extraen indiscriminadamente todo el texto de las imágenes. Sin embargo, la mayoría de los sistemas de OCR modernos incorporan una clasificación basada en reglas. Los scripts que clasifican el texto extraído se ejecutan según reglas creadas por humanos. Estas reglas son específicas del dominio y están programadas en el sistema por humanos. Por ejemplo, para clasificar artículos de investigación que se encuentran en el área de la ciencia de los materiales mediante OCR, el usuario ingresa un conjunto de palabras clave relacionadas con el tema, como “cerámica”, “compuestos”, “nanomateriales”, etc. A continuación, el motor de OCR basado en reglas escanea los documentos y puntúa cada artículo de investigación según la cantidad de palabras clave encontradas. Estos tipos de OCR son fáciles de implementar y se pueden utilizar para clasificar documentos estándar, como los financieros y transaccionales. Simplemente, al buscar palabras clave como “factura”, “recibos”, etc., por ejemplo, se puede permitir que el motor de OCR clasifique el documento automáticamente.
Sin embargo, el OCR basado en reglas no es muy útil cuando los documentos que se van a clasificar no son estándar o hay demasiadas palabras clave que deben ingresarse como reglas de verificación. Por ejemplo, el OCR basado en reglas no funcionaría muy bien en la clasificación de correos electrónicos como spam porque el término “spam” puede abarcar una variedad de sentimientos y contenidos que no tienen nada en común subyacente más allá de ser molestos.
- Clasificación basada en ML
Las herramientas avanzadas de clasificación de documentos utilizan técnicas de ML para la clasificación contextual del texto. La técnica de ML más común es la que utiliza un conjunto de datos de entrenamiento. El conjunto de datos de entrenamiento es el subconjunto más grande de la muestra que se va a clasificar y se introduce en el sistema para que el modelo de ML pueda aprender. El conjunto de datos de entrenamiento normalmente incluye datos y sus etiquetas, que suelen estar anotadas por humanos. Después de la limpieza y normalización de estos datos, se entrena al algoritmo de aprendizaje automático para identificar las características y asociarlas con las etiquetas. Una vez entrenado, se prueba el rendimiento del modelo utilizando un conjunto de datos de prueba, que es un subconjunto más pequeño de la base de datos de documentos. Después de realizar los ajustes y las correcciones necesarios, se utiliza el algoritmo para clasificar los documentos.
Los modelos de SuVM, árboles de decisión y redes neuronales como las CNN se incluyen en esta categoría. El rendimiento del modelo se verifica periódicamente utilizando un conjunto de datos de validación (que es diferente del conjunto de datos de entrenamiento). Aunque la clasificación supervisada requiere mucho tiempo, su rendimiento mejora con el tiempo.
- Aprendizaje no supervisado mediante PNL
En este caso, no hay un conjunto de datos de entrenamiento ni datos etiquetados. El algoritmo compara documentos similares y selecciona las similitudes y diferencias para la clasificación. El procesamiento del lenguaje natural utiliza varias técnicas de lingüística, estadística e informática para comprender el contexto del texto. Los clasificadores de documentos basados en el procesamiento del lenguaje natural no solo pueden definir patrones en los textos, sino también “entender” el significado de las palabras y utilizarlos para la clasificación.
El proceso de procesamiento del lenguaje natural no supervisado comienza transformando los datos de texto en incrustaciones de palabras o vectores TF-IDF para obtener el contenido semántico. Los documentos similares se agrupan utilizando estos vectores mediante algoritmos de agrupamiento como K-means o agrupamiento jerárquico. El agrupamiento da como resultado la agrupación de datos en función de similitudes subyacentes en patrones o temas. Estos grupos revelan patrones o temas subyacentes dentro del texto, lo que permite la organización automática de documentos en función de su contenido.
En la clasificación no supervisada no es necesario etiquetar los datos, por lo que resulta útil cuando no hay muchos datos de entrenamiento disponibles. Se suele utilizar en la clasificación de temas, donde es necesario identificar temas dentro de una gran colección.
Dónde es documento ¿Clasificación utilizada?
Ahora que muchas operaciones se están trasladando al ámbito digital, la clasificación de documentos es omnipresente.
Quizás el lugar más común en el que nos encontramos con la clasificación de documentos, incluso sin darnos cuenta, es en la atención al cliente. No hace mucho tiempo, las operaciones de atención al cliente de muchas empresas se subcontrataban a países con gastos operativos relativamente más baratos. Hoy en día, cada vez más encontramos que la primera línea de atención al cliente en línea está automatizada. El procesamiento del lenguaje natural se utiliza para seleccionar automáticamente palabras y frases de las consultas e interacciones de los clientes y categorizarlas para poder proporcionar las respuestas adecuadas. Esto ayuda a identificar rápidamente el problema o el tema que se está discutiendo, lo que mejora la experiencia del cliente y la satisfacción general.
La categorización automática de documentos puede ayudar a extraer información de cualquier tipo de interacción escrita con el cliente, incluidas reseñas, comentarios y publicaciones en redes sociales sobre productos y tendencias. Esto puede ayudar a las organizaciones a comprender la recepción de su producto entre los clientes e identificar tendencias a las que prestar atención.
La clasificación de documentos también se utiliza ampliamente en la clasificación temática, por ejemplo, en sitios de agregadores de noticias, sitios de revistas de investigación y cualquier repositorio de este tipo que contenga una variedad de documentos e información. Los motores de búsqueda y la catalogación digital son otros ejemplos de categorización temática. Las palabras y frases ingresadas por el usuario se combinan con categorías y metadatos y se genera el resultado apropiado. La categorización temática es una parte integral de la recuperación de almacenamiento de información y la gestión del conocimiento.
En la era de la comunicación masiva a través de las redes sociales, es casi imposible verificar manualmente las interacciones entre los usuarios de los medios de comunicación en todo el mundo. La vigilancia y moderación de contenidos ahora están automatizadas y se utilizan herramientas de clasificación de documentos altamente sofisticadas para este propósito. Estas herramientas rastrean constantemente las plataformas interactivas y clasifican palabras o frases en contexto para marcar el contenido inapropiado.
La aplicación de la clasificación de documentos que está surgiendo con mayor rapidez se encuentra en el sector contable. El departamento de contabilidad de las empresas se ocupa de una variedad de documentos relacionados con las finanzas, como extractos bancarios, libros de contabilidad, facturas, recibos, órdenes de compra, registros de pago, etc. Las herramientas de clasificación automatizada de documentos pueden ayudar no solo a ordenar estos documentos y clasificarlos por tipos, sino también a extraer datos relevantes de ellos, comparar datos de diferentes documentos y manipular y usar datos para obtener información e informes.
Al igual que las operaciones de contabilidad, Recursos Humanos se ocupa de una gran cantidad de documentos, desde currículos y hojas de vida hasta nóminas y recibos de sueldo. A medida que una empresa crece, es prácticamente imposible clasificar estos documentos físicamente en varios archivos y carpetas, sin importar cuántas personas tengan la oportunidad de hacerlo.Un sistema de archivo perfecto al lado del cual todos los demás sistemas de archivo caerán en el olvido.”) trabajan en RRHH. Las herramientas de clasificación de documentos son una parte inevitable e irrevocable del departamento de RRHH.
Conclusión
La clasificación de documentos mejora la gestión de datos, la recuperación de información y el acceso a la información, además de permitir a las organizaciones ahorrar tiempo y dinero. Existen varios tipos y grados de extracción de documentos posibles, y la elección de la herramienta depende de las necesidades de la aplicación. El hecho de que la extracción de documentos sea supervisada o no depende del tipo de documentos que se van a categorizar y de la cantidad de datos disponibles para la categorización. A menudo se utiliza una combinación de enfoques. Por ejemplo, en el ámbito sanitario, una clasificación basada en reglas podría categorizar los documentos en diagnóstico o tratamiento y una clasificación posterior basada en ML puede categorizarlos aún más en análisis de sangre, ecografías, etc. Estas combinaciones son especialmente útiles para categorizar conjuntos de datos complejos.
En conclusión, la clasificación de documentos es tan importante en el mundo actual, en el que se manejan muchos datos, como lo era la clasificación mental de objetos para nuestros antepasados que vivían en las cavernas. Sin embargo, no hay que olvidar que la clasificación de documentos, por muy eficiente que sea la herramienta, es tan precisa como la integridad del documento original sobre el que se trabaja.