¡Es el Año Nuevo Lunar en China y el mundo está celebrando! Gracias al lanzamiento de un modelo increíble tras otro por compañías chinas. Alibaba lanzó recientemente Qwen2.5-Max, un modelo que reemplaza a los gigantes de OpenAi, Deepseek & Llama. Repleto de razonamiento avanzado y generación de imágenes y videos, este modelo está listo para sacudir el mundo de Genai. En este blog, compararemos el rendimiento de Qwen2.5-Max, Deepseek-R1 y Kimi K1.5 en varios frentes para encontrar el mejor LLM en la actualidad.
Introducción a Qwen2.5-Max, Deepseek-R1 y Kimi K1.5
- Qwen2.5-max: Es un LLM multimodal de código cerrado de Alibaba Cloud, entrenado con más de 20 billones de parámetros y ajustado con RLHF. Muestra capacidades de razonamiento avanzado con la capacidad de generar imágenes y videos.
- Deepseek-r1: Es un modelo de código abierto de Deepseek, que ha sido entrenado utilizando el aprendizaje de refuerzo con ajuste supervisado. Este modelo sobresale en el pensamiento lógico, la resolución de problemas complejas, las matemáticas y la codificación.
- Como K1.5: Es un LLM multimodal de código abierto de Moonshot ai que puede procesar grandes cantidades de contenido en un mensaje simple. Puede realizar búsquedas web en tiempo real en más de 100 sitios web y trabajar con múltiples archivos a la vez. El modelo muestra excelentes resultados en tareas que involucran STEM, codificación y razonamiento general.

Qwen2.5-Max vs Deepseek-R1 vs Kimi K1.5: Comparación técnica
Comencemos a comparar Qwen2.5-Max, Deepseek-R1 y Kimi K1.5, comenzando con sus detalles técnicos. Para esto, compararemos las actuaciones y características de referencia de estos 3 modelos.
Comparación de rendimiento de referencia
Según los datos disponibles, así es como se desempeña Qwen2.5-Max contra Deepseek-R1 y Kimi K1 en varias pruebas de referencia estándar.

- Banco de código en vivo: Este punto de referencia determina cómo cada modelo maneja las tareas de codificación, incluida la escritura, la depuración o la comprensión del código. Kimi K1.5 y Qwen2.5-Max están casi atados, lo que indica que ambos son muy capaces de generar y analizar fragmentos de código.
- GPQA (respuesta de pregunta general): Este punto de referencia evalúa la capacidad de un modelo para comprender y resolver preguntas en torno a múltiples dominios como el razonamiento, la comprensión basada en el contexto y el conocimiento fáctico. En este punto de referencia, Deepseek R1 lidera sobre qwen2.5-max con un margen significativo, destacando su dominio.
- MMLU: Este referencia prueba el conocimiento de múltiples sujetos y la comprensión del lenguaje en varios dominios (matemáticas, ciencias, humanidades, etc.). Qwen2.5-Max conduce a Deepseek R1, mostrando una mejor comprensión de diversos temas académicos y del mundo real.
- C-EVAL (evaluación integral): Este punto de referencia cubre preguntas matizadas de razonamiento de nivel superior. Qwen2.5-Max muestra un mejor rendimiento en este parámetro en comparación con Kimi K1.5, lo que lo convierte en un mejor modelo de razonamiento.
Comparación de características
Cada uno de los tres modelos tiene su propia interfaz de chat web que ofrece diferentes características. Así es como Qwen2.5-Max se desempeña contra sus pares cuando se trata de características:
Característica | Qwen2.5-max | Deepseek-r1 | Como K1.5 |
---|---|---|---|
Análisis de imágenes | No | Sí | Sí |
Interfaz web | Sí | Sí | Sí |
Generación de imágenes | Sí | No | No |
Búsqueda web | No | Sí | Sí |
Artefactos | Sí | No | No |
Documentos de carga | Soltero | Múltiple | Múltiple |
Frase común | No | No | Sí |
Qwen2.5-Max vs Deepseek-R1 vs Kimi K1.5: Análisis basado en aplicaciones
Ahora comparemos los 3 modelos chinos actualmente reinantes: Qwen2.5-Max, Deepseek-R1 y Kimi K1.5, según sus aplicaciones. Para esto, probaremos su rendimiento en tres tareas diferentes que involucran razonamiento, procesamiento de varios pasos y codificación.
Daremos el mismo aviso a los tres modelos y compararemos sus respuestas, dándoles puntajes de 0, 0.5 y 1 en función de su rendimiento. Al final, contaremos los puntajes para descubrir cuáles de ellos es el mejor. Así que comencemos.
Tarea 1: razonamiento avanzado
Inmediato: “Demuestra matemáticamente que la Tierra es redonda”
Salidas
Qwen2.5-max | Deepseek-r1 | Como K1.5 |
---|---|---|
Usando geometría, gravedad, movimiento satelital y experimentos históricos, hemos demostrado matemáticamente que la Tierra es redonda. La curvatura del horizonte, la uniformidad de la gravedad y la consistencia de las órbitas satelitales respaldan esta conclusión. La tierra es una esfera (o más precisamente, un esferoide oblato). | Al calcular la circunferencia de la Tierra utilizando diferencias angulares en las sombras y las distancias entre dos ubicaciones, Eratosthenes demostró matemáticamente la forma esférica de la Tierra. Las mediciones y observaciones modernas (por ejemplo, curvatura de horizonte, eclipses lunares) confirman aún más. | La consistencia de distancias y ángulos medidos con geometría esférica (p. Ej., D = Rθ) demuestra que la Tierra es redonda. Los modelos de tierra plana no explican estas relaciones. |
Mi análisis
Qwen2.5-max | Deepseek-r1 | Como K1.5 |
---|---|---|
El modelo proporcionó algunas observaciones clave que respaldan el reclamo. Luego cubrió varios parámetros como la geometría de una esfera, la curvatura del horizonte, la fuerza rotacional y centrífuga, y otros que no fueron necesarios. Cubrió el “Experimento de Eratosthenes” como parte de esos parámetros. | El modelo explicó la teoría en breve junto con todos los cálculos matemáticos para dar la prueba de la tarea dada. También dio algunas pruebas adicionales junto con algunas observaciones clave para establecer su resultado. El modelo utilizó el experimento de Eratosthenes para establecer la prueba. | Este modelo dio la respuesta más clara y concisa. Probó la hipótesis con un pequeño cálculo matemático. Utilizó las mediciones del experimento de Eratóstenes, sin mencionarlo explícitamente. |
La prueba más relevante de la curvatura de la Tierra sería la que involucra el método de Eratosthenes (alrededor de 240 a. C.), ya que es una de las pruebas más antiguas y más completas que involucran el análisis matemático de la diferencia angular entre dos lugares. Los tres modelos utilizaron ese enfoque de una forma u otra.
Qwen2.5-Max proporcionó 8 formas diferentes de demostrar que la Tierra es redonda sin una explicación adecuada de ninguna. Deepseek-R1 tomó el método de Eratóstenes, explicó su teoría y matemática en términos concisos y claros. Kimi K 1.5 utilizó el enfoque más simple, basado en el método requerido sin siquiera mencionarlo explícitamente.
Puntuación: Qwen2.5-Max: 0 | Deepseek-r1: 0.5 | Kimi K1.5: 1
Tarea 2: Procesamiento y análisis de documentos de varios pasos
Inmediato: “Resume la lección en 1 línea, cree un diagrama de flujo para explicar el proceso que ocurre en la lección y luego traducir el resumen al francés.
Lección“
Salidas

Mi análisis
Qwen2.5-max | Deepseek-r1 | Como K1.5 |
---|---|---|
El resumen era conciso y presentó los temas cubiertos en la lección. | El resumen de la lección fue nítido, conciso y al grano. | El resumen cubrió todos los temas y fue bastante simple, pero un poco largo en comparación con los demás. |
El diagrama de flujo cubrió todos los encabezados esenciales y sus subtítulos según sea necesario. | El diagrama de flujo cubrió todos los encabezados esenciales, pero tenía más que el contenido requerido en los subtítulos. | En lugar del diagrama de flujo sobre la lección, el modelo generó el diagrama de flujo en el proceso que se cubrió en la lección. En general, este diagrama de flujo fue claro y nítido. |
Quería un resumen simple, nítido y de una línea de la lección generado por Deepseek-R1 y Qwen2.5-Max por igual. Pero para el diagrama de flujo, mientras que el diseño y la crujiente del resultado generado por Kimi K1.5 fue la pregunta exacta, carecía de detalles sobre el flujo de la lección. El diagrama de flujo de Deepseek-R1 era un poco pesado de contenido, mientras que Qwen2.5-Max dio un buen diagrama de flujo que cubría todos los elementos esenciales.
Puntuación: Qwen2.5-Max: 1 | Deepseek-r1: 0.5 | Kimi K1.5: 0.5
Tarea 3: codificación
Inmediato: “Escriba un código HTML para un tipo de aplicación de Wordle”
Nota: Antes de ingresar su mensaje en Qwen2.5-Max, haga clic en Artifactos, de esta manera podrá visualizar la salida de su código dentro de la interfaz de chat.
Producción:
Qwen2.5-max:
Deepseek-r1:
Como K1.5:
Mi análisis:
Qwen2.5-max | Deepseek-r1 | Como K1.5 |
---|---|---|
El modelo genera el código rápidamente y la aplicación en sí se parece mucho a la “aplicación Worddle” real. En lugar de los alfabetos enumerados en la parte inferior, nos presentó la opción de ingresar directamente nuestras 5 letras. Luego actualizaría automáticamente esas letras en el tablero. | El modelo lleva algún tiempo generar el código, ¡pero la salida fue excelente! La salida que generó fue casi la misma que la “aplicación Wordle” real. Podemos seleccionar los alfabetos que deseamos intentar adivinar y que pondrían nuestra selección en la palabra. | El modelo genera el código lo suficientemente rápido. Pero la salida del código fue una versión distorsionada de la “aplicación Wordle” real. El tablero de palabras no aparecía, tampoco todas las letras. De hecho, las características Enter y Elimete casi se acercaban a los alfabetos. |
Con su función de artefactos, fue muy fácil analizar el código allí mismo. | El único problema fue que tuve que copiar el código y ejecutarlo en una interfaz diferente. | Además de esto, tuve que ejecutar este código en una interfaz diferente para visualizar la salida. |
En primer lugar, quería que la aplicación generada fuera lo más similar a la aplicación de Wordle real posible. En segundo lugar, quería poner un esfuerzo mínimo para probar el código generado. El resultado generado por Deepseek-R1 fue el más cercano a la solicitud, mientras que el resultado bastante bueno de Qwen-2.5 fue el más fácil de probar.
Puntuación: Qwen2.5-Max: 1 | Deepseek-r1: 1 | Kimi K1.5: 0
Puntaje final
Qwen2.5-Max: 2 | Deepseek-r1: 1.5 | Kimi K1.5: 1.5
Conclusión
Qwen2.5-Max es un increíble LLM que brinda modelos como Deepseek-R1 y Kimi K1.5 Dusta Competition. Sus respuestas fueron comparables en todas las tareas diferentes. Aunque actualmente carece del poder para analizar imágenes o buscar en la web, una vez que esas características están en vivo; QWEN2.5-Max será un modelo inmejorable. Ya posee capacidades de generación de videos que incluso GPT-4O aún no tiene. Además, su interfaz es bastante intuitiva, con características como artefactos, que simplifican los códigos dentro de la misma plataforma. En general, Qwen2.5-Max de Alibaba es un LLM completo que está aquí para redefinir cómo trabajamos con LLMS.
Preguntas frecuentes
A. Qwen2.5-Max es el último LLM multimodal de Alibaba, optimizado para la generación de texto, imagen y video con más de 20 billones de parámetros.
R. En comparación con Deepseek-R1 y Kimi K1.5, se destaca en razonamiento, creación de contenido multimodal y soporte de programación, lo que lo convierte en un fuerte competidor en el ecosistema de IA chino.
A. No, Qwen2.5-Max es un modelo de código cerrado, mientras que Deepseek-R1 y Kimi K1.5 son de código abierto.
¡A. Sí! El modelo QWEN2.5-Max admite la generación de imágenes y videos.
R. Sí, tanto Deepseek-R1 como Kimi K1.5 admiten la búsqueda web en tiempo real, mientras que QWEN2.5-Max actualmente carece de capacidades de búsqueda web. Esto le da a Deepseek-R1 y Kimi una ventaja para recuperar la última información en línea.
A. Dependiendo de su caso de uso, elija:
-Qwen2.5-Max: Si necesita capacidades multimodales (texto, imágenes, video) y razonamiento avanzado de IA.
-Deepseek-r1: Si desea la flexibilidad de un modelo de código abierto, un rendimiento de preguntas superiores de pregunta superior e integración de búsqueda web.
– Como K1.5: Si necesita un manejo eficiente de documentos, resolución de problemas basada en STEM y acceso web en tiempo real.