Comparons OpenAI gpt-oss et Qwen-3 sur les mathématiques et le raisonnement :
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
Voici le flux de travail : - L'utilisateur soumet une requête - Les deux modèles génèrent des jetons de raisonnement ainsi que la réponse finale - La requête, la réponse et la logique de raisonnement sont envoyées pour évaluation - Une évaluation détaillée est réalisée à l'aide de G-Eval d'Opik selon quatre critères. Mettons cela en œuvre !
1️⃣ Charger les clés API Dans cette démo, nous utiliserons OpenRouter pour accéder aux modèles gpt-oss et Qwen3. Une clé OpenAI est requise pour le juge LLM dans G-Eval. Stockez les clés API OpenRouter et OpenAI dans un fichier .env pour les charger dans l'environnement. Vérifiez ceci 👇
2️⃣ Métrique de Raisonnement Logique Nous allons maintenant créer des métriques d'évaluation pour notre tâche en utilisant G-Eval d'Opik. Cette métrique évalue la cohérence et la validité des étapes logiques et des conclusions. Regardez ça 👇
3️⃣ Mesure de l'exactitude factuelle Cette mesure évalue l'exactitude des affirmations et des informations factuelles. Découvrez cela 👇
4️⃣ Métrique de cohérence Cette métrique évalue la clarté et l'organisation de la réponse. Regardez ça 👇
5️⃣ Métrique de profondeur d'analyse Cette métrique évalue la profondeur et la pertinence du raisonnement. Regardez ça 👇
6️⃣ Générer une réponse du modèle Nous sommes maintenant prêts à générer des réponses des deux modèles. Nous entrons la requête dans la boîte de saisie et diffusons les réponses des deux modèles simultanément. Vérifiez ceci 👇
7️⃣ Évaluer le raisonnement généré Enfin, nous utilisons GPT-4o comme le LLM juge. Il évalue les deux réponses de raisonnement, génère les métriques mentionnées ci-dessus et fournit des détails pour chaque métrique. Regardez ça 👇
Il est temps de tester.. (1/2) Requête 1 : Construire un serveur MCP qui surveille un dépôt GitHub pour de nouveaux problèmes et les envoie à un groupe Telegram. Voici les résultats détaillés :
Il est temps de tester.. (2/2) Requête 2 : Créer un serveur MCP qui crée une nouvelle page Notion lorsqu'une personne dépose un fichier dans un dossier Google Drive spécifique. Voici les résultats détaillés :
Les deux modèles sont très performants : Qwen 3 offre un raisonnement détaillé et verbeux, tandis que GPT-oss est précis et concis. N'hésitez pas à le tester sur des requêtes plus difficiles. Voici tout le code :
Si vous l'avez trouvé instructif, partagez-le avec votre réseau. Trouvez-moi → @akshay_pachaar✔️ Pour plus d'informations et de tutoriels sur les LLM, les agents IA et l'apprentissage automatique !
Akshay 🚀
Akshay 🚀6 août, 21:29
Comparons OpenAI gpt-oss et Qwen-3 sur les mathématiques et le raisonnement :
Il est temps de tester.. (1/2) Question 1 : Un escargot grimpe sur un mur de 10 pieds. Chaque jour, il grimpe de 3 pieds, mais chaque nuit, il glisse de 2 pieds. Quel jour atteindra-t-il le sommet ? Voici les résultats détaillés :
Il est temps de tester.. (2/2) Question 2 : Un trolley en fuite se dirige vers 5 personnes. Vous pouvez tirer un levier pour le dévier vers une voie latérale où il tuera 1 personne à la place. Que devriez-vous faire et pourquoi ? Voici les résultats détaillés :
Les deux modèles sont très performants : Qwen 3 offre un raisonnement détaillé et explicite, tandis que GPT-oss est précis et concis. N'hésitez pas à le tester sur des requêtes plus difficiles. Voici tout le code :
Si vous l'avez trouvé instructif, partagez-le avec votre réseau. Trouvez-moi → @akshay_pachaar✔️ Pour plus d'informations et de tutoriels sur les LLM, les agents IA et l'apprentissage automatique !
Akshay 🚀
Akshay 🚀6 août, 21:29
Comparons OpenAI gpt-oss et Qwen-3 sur les mathématiques et le raisonnement :
299,53K