Compararemos OpenAI gpt-oss y Qwen-3 en matemáticas y razonamiento:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
Aquí está el flujo de trabajo: - El usuario envía una consulta - Ambos modelos generan tokens de razonamiento junto con la respuesta final - La consulta, la respuesta y la lógica de razonamiento se envían para evaluación - Se realiza una evaluación detallada utilizando G-Eval de Opik en cuatro métricas. ¡Implementemos esto!
1️⃣ Cargar claves API En esta demostración, utilizaremos OpenRouter para acceder a los modelos gpt-oss y Qwen3. Se requiere una clave de OpenAI para el juez LLM en G-Eval. Almacena las claves API de OpenRouter y OpenAI en un archivo .env para cargarlas en el entorno. Revisa esto 👇
2️⃣ Métrica de Razonamiento Lógico Ahora crearemos métricas de evaluación para nuestra tarea utilizando G-Eval de Opik. Esta métrica evalúa la coherencia y validez de los pasos lógicos y conclusiones. Mira esto 👇
3️⃣ Métrica de Precisión Factual Esta métrica evalúa la precisión de las afirmaciones y la información fáctica. Mira esto 👇
4️⃣ Métrica de coherencia Esta métrica evalúa la claridad y organización de la respuesta. Mira esto 👇
5️⃣ Métrica de Profundidad de Análisis Esta métrica evalúa la profundidad y la perspicacia del razonamiento. Mira esto 👇
6️⃣ Generar respuesta del modelo Ahora estamos listos para generar respuestas de ambos modelos. Ingresamos la consulta en el cuadro de entrada y transmitimos respuestas de ambos modelos simultáneamente. Revisa esto 👇
7️⃣ Evalúa el razonamiento generado Finalmente, utilizamos GPT-4o como el LLM juez. Evalúa ambas respuestas de razonamiento, genera las métricas mencionadas anteriormente y proporciona detalles para cada métrica. Mira esto 👇
Es hora de probar.. (1/2) Consulta 1: Construir un servidor MCP que vigile un repositorio de GitHub en busca de nuevos problemas y los envíe a un grupo de Telegram. Aquí están los resultados detallados:
Es hora de probar.. (2/2) Consulta 2: Construir un servidor MCP que cree una nueva página en Notion cuando alguien suelte un archivo en una carpeta específica de Google Drive. Aquí están los resultados detallados:
Ambos modelos son altamente capaces: Qwen 3 ofrece un razonamiento detallado y extenso, mientras que GPT-oss es conciso y preciso. Siéntete libre de probarlo con consultas más desafiantes. Aquí está todo el código:
Si lo encontraste interesante, compártelo con tu red. Encuéntrame → @akshay_pachaar✔️ ¡Para más ideas y tutoriales sobre LLMs, Agentes de IA y Aprendizaje Automático!
Akshay 🚀
Akshay 🚀6 ago, 21:29
Compararemos OpenAI gpt-oss y Qwen-3 en matemáticas y razonamiento:
Es hora de probar.. (1/2) Consulta 1: Un caracol sube por una pared de 10 pies. Cada día sube 3 pies, pero cada noche resbala 2 pies. ¿En qué día alcanzará la cima? Aquí están los resultados detallados:
Es hora de probar.. (2/2) Consulta 2: Un tranvía descontrolado se dirige hacia 5 personas. Puedes tirar de una palanca para desviarlo a una vía lateral donde matará a 1 persona en su lugar. ¿Qué deberías hacer y por qué? Aquí están los resultados detallados:
Ambos modelos son altamente capaces: Qwen 3 ofrece un razonamiento detallado y extenso, mientras que GPT-oss es preciso y conciso. Siéntete libre de probarlo con consultas más desafiantes. Aquí está todo el código:
Si te pareció interesante, compártelo con tu red. Encuéntrame → @akshay_pachaar✔️ ¡Para más ideas y tutoriales sobre LLMs, Agentes de IA y Aprendizaje Automático!
Akshay 🚀
Akshay 🚀6 ago, 21:29
Compararemos OpenAI gpt-oss y Qwen-3 en matemáticas y razonamiento:
300,65K