Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Låt oss jämföra GPT-5 och Claude Opus-4.1 för kodgenerering:
Idag bygger vi en CodeArena, där du kan jämföra två valfria code-gen-modeller sida vid sida.
Teknisk stack:
- @LiteLLM för orkestrering
- @Cometml Opik för att bygga eval-pipelinen
- @OpenRouterAI för att få tillgång till banbrytande modeller
- @LightningAI för att vara värd för CodeArena
Kom så går vi!🚀
Här är arbetsflödet:
- Välj modeller för jämförelse av kodgenerering
- Importera ett GitHub-förråd och erbjud det som kontext till LLM:er
- Använd kontext + fråga för att generera kod från båda modellerna
- Utvärdera genererad kod med hjälp av Opiks G-Eval
Låt oss genomföra detta!
0️⃣ Ladda API-nycklar
I den här demon får vi tillgång till GPT-5 via openai och resten av modellerna med hjälp av OpenRouter.
Lagra de nycklar som krävs i en .env-fil för att läsa in i miljön.
Kolla in det här 👇

1️⃣ Mata in GitHub-lagringsplatsen
Vi använder GitIngest för att konvertera en användardefinierad GitHub-lagringsplats till enkla, LLM-klara textdata.
LLM:er kommer att använda dessa data som kontext för att generera kod som svar på användarens fråga.
Kolla in det här 👇

2️⃣ Mått för kodens korrekthet
Vi kommer nu att skapa utvärderingsmått för vår uppgift med hjälp av Opiks G-Eval.
Det här måttet bedömer kvaliteten och korrektheten hos den genererade koden genom att jämföra den med en referenskod för grundsanning.
Kolla in det här 👇

3️⃣ Mått för kodläsbarhet
Det här måttet säkerställer att koden följer korrekt formatering och konsekventa namngivningskonventioner.
Den utvärderar också kvaliteten på kommentarer och dokumentsträngar, vilket gör koden lätt att förstå.
Kolla in det här 👇

4️⃣ Mått för bästa praxis
Det här måttet säkerställer att koden är modulär, effektiv och implementerar korrekt felhantering.
Kolla in det här 👇

5️⃣ Generera modellsvar
Nu är vi redo att generera svar från båda modellerna.
Vi anger den inmatade kodbasen som kontext i prompten och strömmar svaren från båda modellerna parallellt.
Kolla in det här 👇

6️⃣ Utvärdera genererad kod
Vi utvärderar svaren som genereras av båda modellerna med hjälp av de mätvärden som nämns ovan, vilket ger en detaljerad motivering för varje mätvärde.
Kolla in det här👇

7️⃣ Streamlit användargränssnitt
Slutligen skapar vi ett intuitivt Streamlit UI som förenklar jämförelse och utvärdering av båda modellerna i ett enda gränssnitt.
Kolla in det här 👇

Dags att testa.
Fråga 1: Skapa en MCP-server som gör att AI-agenter och chattrobotar kan läsa kod, hantera problem/PR:er, analysera lagringsplatser och automatisera arbetsflöden på GitHub.
För de tre mätvärdena: Korrekthet, läsbarhet och bästa praxis:
- GPT-5-poäng: 9
- Calude Opus-4.1 poäng: 8.67

Med CodeArena kan du jämföra två valfria modeller. Jag jämförde också kort GPT-5 med Qwen3-Coder!
Fråga 2: MCP-servern ansluter till Notions API, vilket gör det möjligt för AI att hantera anteckningar, att göra-listor och databaser för förbättrad produktivitet och organisation.
Kolla in det här 👇

Du hittar all kod och allt du behöver för att köra CodeArena i @LightningAI Studio nedan!
Ta en provtur:
Slutligen, här är ytterligare 10 utvärderingar jag körde med Opik för att bygga MCP-servrar.
- GPT-5 vann i 6 fall.
- Claude Opus 4.1 vann i de återstående 4
På det hela taget är båda modellerna exceptionellt bra, medan GPT-5 är marginellt bättre.
Kolla in det här 👇

Om du tyckte att det var insiktsfullt, dela det igen med ditt nätverk.
Hitta mig → @akshay_pachaar✔️
För fler insikter och handledningar om LLM:er, AI-agenter och maskininlärning!

7 timmar sedan
Låt oss jämföra GPT-5 och Claude Opus-4.1 för kodgenerering:
14,44K
Topp
Rankning
Favoriter