Vamos comparar o GPT-5 e o Claude Opus-4.1 para geração de código:
Hoje, estamos a construir um CodeArena, onde podes comparar quaisquer dois modelos de geração de código lado a lado. Stack tecnológico: - @LiteLLM para orquestração - Opik da @Cometml para construir o pipeline de avaliação - @OpenRouterAI para aceder a modelos de ponta - @LightningAI para alojar o CodeArena Vamos lá!🚀
Aqui está o fluxo de trabalho: - Escolher modelos para comparação de geração de código - Importar um repositório do GitHub e oferecê-lo como contexto para os LLMs - Usar contexto + consulta para gerar código a partir de ambos os modelos - Avaliar o código gerado usando o G-Eval da Opik Vamos implementar isso!
0️⃣ Carregar chaves da API Nesta demonstração, vamos aceder ao GPT-5 através da openai e ao resto dos modelos usando o OpenRouter. Armazene as chaves necessárias num arquivo .env para carregar no ambiente. Verifique isto 👇
1️⃣ Ingestão de repositório GitHub Usamos o GitIngest para converter um repositório GitHub especificado pelo usuário em dados de texto simples, prontos para LLM. Os LLMs utilizarão esses dados como contexto para gerar código em resposta à consulta do usuário. Veja isto 👇
2️⃣ Métrica de correção de código Agora vamos criar métricas de avaliação para a nossa tarefa usando o G-Eval da Opik. Esta métrica avalia a qualidade e a correção do código gerado, comparando-o com um código de referência verdadeiro. Confira isto 👇
3️⃣ Métrica de legibilidade do código Esta métrica garante que o código adere a uma formatação adequada e a convenções de nomenclatura consistentes. Ela também avalia a qualidade dos comentários e das docstrings, que tornam o código fácil de entender. Veja isto 👇
4️⃣ Melhores práticas de métrica Esta métrica garante que o código seja modular, eficiente e implemente um tratamento de erros adequado. Veja isto 👇
5️⃣ Gerar resposta do modelo Agora estamos prontos para gerar respostas de ambos os modelos. Especificamos a base de código ingerida como contexto no prompt e transmitimos as respostas de ambos os modelos em paralelo. Verifique isto 👇
6️⃣ Avaliar o código gerado Nós avaliamos as respostas geradas por ambos os modelos usando as métricas mencionadas acima, fornecendo uma explicação detalhada para cada métrica. Confira isto👇
7️⃣ Streamlit UI Finalmente, criamos uma interface intuitiva Streamlit que simplifica a comparação e avaliação de ambos os modelos dentro de uma única interface. Veja isto 👇
Hora de testar.. Consulta 1: Criar um servidor MCP que permita a agentes de IA e chatbots ler código, gerir problemas/PRs, analisar repositórios e automatizar fluxos de trabalho no GitHub. Através das três métricas: Correção, Legibilidade e Melhores práticas: - GPT-5 obteve: 9 - Calude Opus-4.1 obteve: 8.67
O CodeArena permite que você compare quaisquer dois modelos. Eu também comparei brevemente o GPT-5 com o Qwen3-Coder! Consulta 2: O Servidor MCP conecta-se à API do Notion, permitindo que a IA gerencie notas, listas de tarefas e bancos de dados para aumentar a produtividade e a organização. Confira isto 👇
Você pode encontrar todo o código e tudo o que precisa para executar o CodeArena no @LightningAI Studio abaixo! Experimente:
Finalmente, aqui estão mais 10 avaliações que fiz usando o Opik para construir servidores MCP. - O GPT-5 venceu em 6 casos. - O Claude Opus 4.1 venceu nos 4 restantes. No geral, ambos os modelos são excepcionalmente bons, com o GPT-5 ligeiramente melhor. Veja isto 👇
Se achou útil, compartilhe com a sua rede. Encontre-me → @akshay_pachaar✔️ Para mais insights e tutoriais sobre LLMs, Agentes de IA e Aprendizado de Máquina!
Akshay 🚀
Akshay 🚀Há 12 horas
Vamos comparar o GPT-5 e o Claude Opus-4.1 para geração de código:
17,23K