Los sistemas de agente multimodal representan un avance revolucionario en el campo de la inteligencia artificial, combinando perfectamente diversos tipos de datos, como texto, imágenes, audio y video, en un sistema unificado que mejora significativamente las capacidades de las tecnologías inteligentes. Estos sistemas se basan en agentes inteligentes autónomos que pueden procesar, analizar y sintetizar independientemente información de varias fuentes, facilitando una comprensión más profunda y matizada de situaciones complejas.
Al fusionar las entradas multimodales con la funcionalidad de la agente, estos sistemas pueden adaptarse dinámicamente en tiempo real para cambiar entornos e interacciones del usuario, ofreciendo una experiencia más receptiva e inteligente. Esta fusión no solo aumenta la eficiencia operativa en una variedad de industrias, sino que también eleva las interacciones humanas-computadora, haciéndolas más fluidas, intuitivas y conscientes del contexto. Como resultado, los marcos de agente multimodal están configurados para remodelar la forma en que interactuamos y utilizamos la tecnología, impulsando la innovación en innumerables aplicaciones en todos los sectores.
Objetivos de aprendizaje
- Beneficios de los sistemas de IA agente con análisis de imágenes avanzadas
- ¿Cómo la herramienta de visión de la tripulación de IA mejora las capacidades de ai de agente?
- Descripción general del modelo Deepseek-R1-Distill-Qwen-7B y sus características
- Tutorial de Python Herramienta de visión de integración con Deepseek R1
- Construyendo un sistema multimodal y multi-agéntico para el análisis de existencias
- Análisis y comparación de comportamientos de stock utilizando gráficos de stock
Este artículo fue publicado como parte del Blogathon de ciencias de datos.
<h2 class="wp-block-heading" id="h-agentic-ai-systems-with-image-analysis-capabilities”>Sistemas de IA de agente con capacidades de análisis de imágenes
Los sistemas de IA agente, fortificados con sofisticadas capacidades de análisis de imágenes, están transformando industrias al permitir un conjunto de funciones indispensables.
- Procesamiento de datos visuales instantáneos: Estos sistemas avanzados poseen la capacidad de analizar inmensas cantidades de información visual en tiempo real, mejorando drásticamente la eficiencia operativa en diversos sectores, incluidas la atención médica, la fabricación y el comercio minorista. Este rápido procesamiento facilita la toma de decisiones rápidas y las respuestas inmediatas a las condiciones dinámicas.
- Precisión superior en el reconocimiento de imágenes: Con tasas de precisión de reconocimiento que superan el 95%, la IA agente disminuye sustancialmente la ocurrencia de falsos positivos en las tareas de reconocimiento de imágenes. Este nivel elevado de precisión se traduce en resultados más confiables y confiables, cruciales para aplicaciones donde la precisión es primordial.
- Ejecución de tarea autónoma: Al incorporar a la perfección el análisis de imágenes en sus marcos operativos, estos sistemas inteligentes pueden ejecutar de forma autónoma tareas complejas, como proporcionar diagnósticos médicos o realizar operaciones de vigilancia, todo sin la necesidad de una supervisión humana directa. Esta automatización no solo agiliza los flujos de trabajo, sino que también minimiza el potencial de error humano, allanando el camino para una mayor productividad y confiabilidad.
<h3 class="wp-block-heading" id="h-crew-ai-vision-tool”>Herramienta de visión de ai de la tripulación
Crewai es un marco de código abierto de vanguardia diseñado para orquestar a los agentes autónomos de IA en equipos cohesivos, lo que les permite abordar tareas complejas en colaboración. Dentro de Crewai, a cada agente se les asigna roles específicos, equipado con herramientas designadas y impulsado por objetivos bien definidos, reflejando la estructura de un equipo de trabajo del mundo real.
El Herramienta de visión Expande las capacidades de Crewai, lo que permite a los agentes procesar y comprender los datos de texto basados en imágenes, integrando así la información visual en sus procesos de toma de decisiones. Los agentes pueden aprovechar la herramienta de visión para extraer texto de las imágenes simplemente proporcionando una URL o una ruta de archivo, mejorando su capacidad para recopilar información de diversas fuentes. Después de extraer el texto, los agentes pueden utilizar esta información para generar respuestas integrales o informes detallados, automatizar aún más los flujos de trabajo y mejorar la eficiencia general. Para usar de manera efectiva la herramienta de visión, es necesario establecer la tecla API de OpenAI dentro de las variables de entorno, asegurando una integración perfecta con los modelos de idiomas.
Construyendo un sistema de agente multimodal para explicar el comportamiento de stock a partir de las listas de existencias
Construiremos un sistema de agente multimodal sofisticado que primero aprovechará la herramienta de visión de Crewai diseñada para interpretar y analizar las listas de acciones (presentadas como imágenes) de dos compañías. Este sistema aprovechará el poder del modelo Deepseek-R1-Distill-Qwen-7B para proporcionar explicaciones detalladas del comportamiento de estas compañías, ofreciendo información bien razonada sobre el desempeño de las dos compañías y comparando su comportamiento. Este enfoque permite una comprensión y comparación integral de las tendencias del mercado mediante la combinación del análisis de datos visuales con modelos de lenguaje avanzados, permitiendo la toma de decisiones informadas.

Deepseek-r1-Distill-Qwen-7b
Para adaptar las habilidades de razonamiento avanzado de Deepseek R1 para su uso en modelos de lenguaje más compactos, los creadores compilaron un conjunto de datos de 800,000 ejemplos generados por Deepseek R1. Estos ejemplos se usaron para ajustar modelos existentes como Qwen y Llama. Los resultados demostraron que este método de destilación de conocimiento relativamente simple transfirió efectivamente las sofisticadas capacidades de razonamiento de R1 a estos otros modelos
El modelo Deepseek-R1-Distill-Qwen-7b es uno de los modelos destilados de Deepseek R1. Es una versión destilada de la arquitectura más grande Deepseek-R1, diseñada para ofrecer una eficiencia mejorada mientras se mantiene un rendimiento robusto. Aquí hay algunas características clave:
El modelo sobresale en tareas matemáticas, logrando una puntuación impresionante de 92.8% en el punto de referencia Math-500, demostrando su capacidad para manejar un razonamiento matemático complejo de manera efectiva.
Además de su destreza matemática, el Deepseek-R1-Distill-Qwen-7b funciona razonablemente bien en las tareas de respuesta de preguntas. 49.1% en GPQA Diamond, indicando un buen equilibrio entre las habilidades de razonamiento matemático y objetivo.
Aprovecharemos este modelo para explicar y encontrar razonamientos detrás del comportamiento de las acciones de las empresas después de la extracción de información de las imágenes de los gráficos de acciones.

Implementación práctica de Python usando ollama en Google Colab
Estaremos usando Ollama para tirar de los modelos LLM y utilizar T4 GPU en Google Colab para construir este sistema de agente multimodal.
Paso 1. Instale las bibliotecas necesarias
!pip install crewai crewai_tools
!sudo apt update
!sudo apt install -y pciutils
!pip install langchain-ollama
!curl -fsSL https://ollama.com/install.sh | sh
!pip install ollama==0.4.2
Paso 2. Habilitación de subprocesos para configurar el servidor Ollama
import threading
import subprocess
import time
def run_ollama_serve():
subprocess.Popen(("ollama", "serve"))
thread = threading.Thread(target=run_ollama_serve)
thread.start()
time.sleep(5)
Paso 3. Tirar de modelos Ollama
!ollama pull deepseek-r1
Paso 4. Definición de la tecla API de OpenAI y el modelo LLM
import os
from crewai import Agent, Task, Crew, Process, LLM
from crewai_tools import LlamaIndexTool
from langchain_openai import ChatOpenAI
from crewai_tools import VisionTool
vision_tool = VisionTool()
os.environ('OPENAI_API_KEY') =''
os.environ("OPENAI_MODEL_NAME") = "gpt-4o-mini"
llm = LLM(
model="ollama/deepseek-r1",
)
Paso 5. Definición de los agentes, tareas en la tripulación
def create_crew(image_url,image_url1):
#Agent For EXTRACTNG INFORMATION FROM STOCK CHART
stockchartexpert= Agent(
role="STOCK CHART EXPERT",
goal="Your goal is to EXTRACT INFORMATION FROM THE TWO GIVEN %s & %s stock charts correctly """%(image_url, image_url1),
backstory="""You are a STOCK CHART expert""",
verbose=True,tools=(vision_tool),
allow_delegation=False
)
#Agent For RESEARCH WHY THE STOCK BEHAVED IN A SPECIFIC WAY
stockmarketexpert= Agent(
role="STOCK BEHAVIOUR EXPERT",
goal="""BASED ON THE PREVIOUSLY EXTRACTED INFORMATION ,RESEARCH ABOUT THE RECENT UPDATES OF THE TWO COMPANIES and EXPLAIN AND COMPARE IN SPECIFIC POINTS WHY THE STOCK BEHAVED THIS WAY . """,
backstory="""You are a STOCK BEHAVIOUR EXPERT""",
verbose=True,
allow_delegation=False,llm = llm
)
#Task For EXTRACTING INFORMATION FROM A STOCK CHART
task1 = Task(
description="""Your goal is to EXTRACT INFORMATION FROM THE GIVEN %s & %s stock chart correctly """%((image_url,image_url1)),
expected_output="information in text format",
agent=stockchartexpert,
)
#Task For EXPLAINING WITH ENOUGH REASONINGS WHY THE STOCK BEHAVED IN A SPECIFIC WAY
task2 = Task(
description="""BASED ON THE PREVIOUSLY EXTRACTED INFORMATION ,RESEARCH ABOUT THE RECENT UPDATES OF THE TWO COMPANIES and EXPLAIN AND COMPARE IN SPECIFIC POINTS WHY THE STOCK BEHAVED THIS WAY.""",
expected_output="Reasons behind stock behavior in BULLET POINTS",
agent=stockmarketexpert
)
#Define the crew based on the defined agents and tasks
crew = Crew(
agents=(stockchartexpert,stockmarketexpert),
tasks=(task1,task2),
verbose=True, # You can set it to 1 or 2 to different logging levels
)
result = crew.kickoff()
return result
Paso 6. Ejecutando la tripulación
Los siguientes dos gráficos de stock se dieron como entrada a la tripulación.


text = create_crew("https://www.eqimg.com/images/2024/11182024-chart6-equitymaster.gif","https://www.eqimg.com/images/2024/03262024-chart4-equitymaster.gif")
pprint(text)


Salida final
Mamaearth's stock exhibited volatility during the year due to internal
challenges that led to significant price changes. These included unexpected
product launches and market controversies which caused both peaks and
troughs in the share price, resulting in an overall fluctuating trend.On the other hand, Zomato demonstrated a generally upward trend in its share
price over the same period. This upward movement can be attributed to
expanding business operations, particularly with successful forays into
cities like Bengaluru and Pune, enhancing their market presence. However,
near the end of 2024, external factors such as a major scandal or regulatory
issues might have contributed to a temporary decline in share price despite
the overall positive trend.In summary, Mamaearth's stock volatility stems from internal inconsistencies
and external controversies, while Zomato's upward trajectory is driven by
successful market expansion with minor setbacks due to external events.
Como se ve en la salida final, el sistema de agente ha dado un análisis bastante bueno y la comparación de los comportamientos del precio de las acciones de las listas de acciones con razonamientos suficientes como una incursión en las ciudades y la expansión en las operaciones comerciales detrás de la tendencia al alza del precio de las acciones de Zomato.
Otro ejemplo de un sistema de agente multimodal para ideas de stock
Comprobemos y comparemos el comportamiento del precio de las acciones de las listas de acciones para dos compañías más: Jubilant Food Works & Bikaji Foods International Ltd. para el año 2024.


text = create_crew("https://s3.tradingview.com/p/PuKVGTNm_mid.png","https://images.cnbctv18.com/uploads/2024/12/bikaji-dec12-2024-12-b639f48761fab044197b144a2f9be099.jpg?im=Resize,width=360,aspect=fit,type=normal")
print(text)


Salida final
The stock behavior of Jubilant Foodworks and Bikaji can be compared based on
their recent updates and patterns observed in their stock charts.Jubilant Foodworks:
Cup & Handle Pattern: This pattern is typically bullish, indicating that the
buyers have taken control after a price decline. It suggests potential
upside as the candlestick formation may signal a reversal or strengthening
buy interest.Breakout Point: The horizontal dashed line marking the breakout point implies
that the stock has reached a resistance level and may now test higher
prices. This is a positive sign for bulls, as it shows strength in the
upward movement.Trend Line Trend: The uptrend indicated by the trend line suggests ongoing
bullish sentiment. The price consistently moves upwards along this line,
reinforcing the idea of sustained growth.Volume Correlation: Volume bars at the bottom showing correlation with price
movements indicate that trading volume is increasing alongside upward price
action. This is favorable for buyers as it shows more support and stronger
interest in buying.Bikaji:
Recent Price Change: The stock has shown a +4.80% change, indicating positive
momentum in the short term.Year-to-Date Performance: Over the past year, the stock has increased by
61.42%, which is significant and suggests strong growth potential. This
performance could be attributed to various factors such as market
conditions, company fundamentals, or strategic initiatives.Time Frame: The time axis spans from January to December 2024, providing a
clear view of the stock's performance over the next year.Comparison:
Both companies' stocks are showing upward trends, but Jubilant Foodworks has
a more specific bullish pattern (Cup & Handle) that supports its current
movement. Bikaji, on the other hand, has demonstrated strong growth over the
past year and continues to show positive momentum with a recent price
increase. The volume in Jubilant Foodworks correlates well with upward
movements, indicating strong buying interest, while Bikaji's performance
suggests sustained or accelerated growth.The stock behavior reflects different strengths: Jubilant Foodworks benefits
from a clear bullish pattern and strong support levels, whereas Bikaji
stands out with its year-to-date growth. Both indicate positive
developments, but the contexts and patterns differ slightly based on their
respective market positions and dynamics.
Como se ve en la salida final, el sistema de agente ha dado un buen análisis y comparación de los comportamientos del precio de las acciones de las listas de existencias con explicaciones elaboradas sobre las tendencias vistas como el rendimiento sostenido de Bikaji en contraste con el patrón alcista de Jubilant Foodworks.
Conclusiones
En conclusión, los marcos de agente multimodal marcan un cambio transformador en la IA al combinar diversos tipos de datos para una mejor toma de decisiones en tiempo real. Estos sistemas mejoran la inteligencia adaptativa integrando el análisis de imágenes avanzado y las capacidades de agente. Como resultado, optimizan la eficiencia y la precisión en varios sectores. El Herramienta de visión de ai de la tripulación y <a target="_blank" href="https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf” target=”_blank” rel=”noreferrer noopener nofollow”>Deepseek r1 El modelo demuestra cómo tales marcos permiten aplicaciones sofisticadas, como analizar el comportamiento del stock. Este avance destaca el creciente papel de la IA en impulsar la innovación y mejorar la toma de decisiones.
Control de llave
- Marcos de agente multimodal: Estos marcos integran texto, imágenes, audio y video en un sistema de IA unificado, mejorando las capacidades de inteligencia artificial. Los agentes inteligentes dentro de estos sistemas procesan, analizan y sintetizan independientemente la información de diversas fuentes. Esta habilidad les permite desarrollar una comprensión matizada de situaciones complejas, haciendo que la IA sea más adaptable y receptiva.
- Adaptación en tiempo real: Al fusionar entradas multimodales con funcionalidad de agente, estos sistemas se adaptan dinámicamente a entornos cambiantes. Esta adaptabilidad permite interacciones de usuario más receptivas e inteligentes. La integración de múltiples tipos de datos mejora la eficiencia operativa en varios sectores, incluidos la atención médica, la fabricación y el comercio minorista. Mejora la velocidad y la precisión de la toma de decisiones, lo que lleva a mejores resultados
- Capacidades de análisis de imágenes: Los sistemas de IA de agente con reconocimiento de imagen avanzado pueden procesar grandes volúmenes de datos visuales en tiempo real, ofreciendo resultados precisos para aplicaciones donde la precisión es crítica. Estos sistemas realizan de forma autónoma tareas complejas, como diagnósticos médicos y vigilancia, reduciendo el error humano y mejorando la productividad.
- Herramienta de visión de ai de la tripulación: Esta herramienta permite a los agentes autónomos dentro de Crewai extraer y procesar el texto de las imágenes, mejorar sus capacidades de toma de decisiones y mejorar la eficiencia general del flujo de trabajo.
- Deepseek-R1-Distill-Qwen-7B: Este modelo destilado ofrece un rendimiento robusto al tiempo que es más compacto, sobresaliendo en tareas como el razonamiento matemático y la respuesta de las preguntas objetivas, lo que lo hace adecuado para analizar el comportamiento del stock.
Los medios que se muestran en este artículo no son propiedad de Analytics Vidhya y se usan a discreción del autor.
Preguntas frecuentes
Ans. Los marcos de agente multimodal combinan diversos tipos de datos como texto, imágenes, audio y video en un sistema de IA unificado. Esta integración permite a los agentes inteligentes analizar y procesar múltiples formas de datos para una toma de decisiones más matizada y eficiente.
Ans. Crew ai es un marco avanzado de código abierto diseñado para coordinar agentes de IA autónomos en equipos cohesivos que trabajan en colaboración para completar tareas complejas. A cada agente dentro del sistema se le asigna un papel específico, equipado con herramientas designadas y impulsado por objetivos bien definidos, imitando la estructura y la función de un equipo de trabajo del mundo real.
Ans. La herramienta de visión de ai de la tripulación permite a los agentes extraer y procesar texto de imágenes. Esta capacidad permite al sistema comprender los datos visuales e integrarlos en los procesos de toma de decisiones, mejorando aún más la eficiencia del flujo de trabajo.
Ans. Estos sistemas son especialmente beneficiosos en industrias como la atención médica, la fabricación y el comercio minorista, donde el análisis en tiempo real y la precisión en el reconocimiento de imágenes son críticos para tareas como el diagnóstico médico y el control de calidad.
Ans. Los modelos destilados de Deepseek-R1 son versiones más pequeñas y más eficientes del modelo más grande Deepseek-R1, creado utilizando un proceso llamado destilación, que preserva gran parte del poder de razonamiento del modelo original al tiempo que reduce las demandas computacionales. Estos modelos destilados están ajustados utilizando datos generados por Deepseek-R1. Algunos ejemplos de estos modelos destilados son Deepseek-R1-Distill-Qwen-1.5b, Deepseek-R1-Distill-Qwen-7b, Deepseek-R1-Distill-Qwen-14b, Deepseek-R1-Distill-Llama-8B entre otros.
(Tagstotranslate) Blogathon