Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Porównajmy OpenAI gpt-oss i Qwen-3 w zakresie matematyki i rozumowania:
Before we dive in, here's a quick demo of what we're building!
Tech stack:
- @LiteLLM for orchestration
- @Cometml's Opik to build the eval pipeline (open-source)
- @OpenRouterAI to access the models
You'll also learn about G-Eval & building custom eval metrics.
Let's go! 🚀
Oto workflow:
- Użytkownik składa zapytanie
- Oba modele generują tokeny rozumowania wraz z ostateczną odpowiedzią
- Zapytanie, odpowiedź i logika rozumowania są wysyłane do oceny
- Szczegółowa ocena jest przeprowadzana przy użyciu G-Eval Opika w czterech metrykach.
Zrealizujmy to!
1️⃣ Załaduj klucze API
W tej demonstracji użyjemy OpenRouter do uzyskania dostępu do modeli gpt-oss i Qwen3.
Klucz OpenAI jest wymagany dla sędziego LLM w G-Eval.
Przechowuj klucze API OpenRouter i OpenAI w pliku .env, aby załadować je do środowiska.
Sprawdź to 👇

2️⃣ Metryka rozumowania logicznego
Teraz stworzymy metryki oceny dla naszego zadania, korzystając z G-Eval Opika.
Ta metryka ocenia spójność i ważność kroków logicznych oraz wniosków.
Sprawdź to 👇

3️⃣ Metryka dokładności faktów
Ta metryka ocenia dokładność twierdzeń i informacji faktograficznych.
Sprawdź to 👇

4️⃣ Metryka spójności
Ta metryka ocenia jasność i organizację odpowiedzi.
Sprawdź to 👇

5️⃣ Metrika Głębokości Analizy
Ta metryka ocenia głębokość i wnikliwość rozumowania.
Sprawdź to 👇

6️⃣ Generuj odpowiedź modelu
Teraz jesteśmy gotowi do generowania odpowiedzi z obu modeli.
Wprowadzamy zapytanie do pola prompt i jednocześnie przesyłamy odpowiedzi z obu modeli.
Sprawdź to 👇

7️⃣ Oceń wygenerowane rozumowanie
Na koniec używamy GPT-4o jako sędzię LLM.
Ocenia obie odpowiedzi rozumujące, generuje wspomniane powyżej metryki i dostarcza szczegóły dla każdej metryki.
Sprawdź to 👇

Czas na testowanie.. (1/2)
Zapytanie 1: Zbuduj serwer MCP, który monitoruje repozytorium GitHub w poszukiwaniu nowych problemów i wysyła je do grupy na Telegramie.
Oto szczegółowe wyniki:

Czas na testowanie.. (2/2)
Zapytanie 2: Zbuduj serwer MCP, który tworzy nową stronę w Notion, gdy ktoś wrzuci plik do określonego folderu Google Drive.
Oto szczegółowe wyniki:

Oba modele są bardzo zdolne: Qwen 3 oferuje szczegółowe i rozbudowane rozumowanie, podczas gdy GPT-oss jest zwięzły i precyzyjny.
Śmiało przetestuj go na bardziej wymagających zapytaniach.
Oto cały kod:
Jeśli uznałeś to za pouczające, podziel się tym ze swoją siecią.
Znajdź mnie → @akshay_pachaar✔️
Po więcej informacji i samouczków na temat LLM, agentów AI i uczenia maszynowego!

6 sie, 21:29
Porównajmy OpenAI gpt-oss i Qwen-3 w zakresie matematyki i rozumowania:
Czas na test.. (1/2)
Zapytanie 1: Ślimak wspina się na 10-stopową ścianę. Każdego dnia wspina się na 3 stopy, ale każdej nocy zjeżdża z powrotem o 2 stopy. W którym dniu dotrze na szczyt?
Oto szczegółowe wyniki:

Czas na test.. (2/2)
Pytanie 2: Uciekająca kolejka zmierza w kierunku 5 osób. Możesz pociągnąć dźwignię, aby skierować ją na boczny tor, gdzie zabije 1 osobę zamiast 5. Co powinieneś zrobić i dlaczego?
Oto szczegółowe wyniki:

Oba modele są bardzo zdolne: Qwen 3 oferuje obszerne i szczegółowe rozumowanie, podczas gdy GPT-oss jest zwięzły i dokładny.
Śmiało przetestuj go na bardziej wymagających zapytaniach.
Oto cały kod:
Jeśli uznałeś to za interesujące, podziel się tym ze swoją siecią.
Znajdź mnie → @akshay_pachaar✔️
Po więcej informacji i samouczków na temat LLM, agentów AI i uczenia maszynowego!

6 sie, 21:29
Porównajmy OpenAI gpt-oss i Qwen-3 w zakresie matematyki i rozumowania:
299,53K
Najlepsze
Ranking
Ulubione