Давайте сравним GPT-5 и Claude Opus-4.1 для генерации кода:
Сегодня мы создаем CodeArena, где вы можете сравнить любые две модели генерации кода бок о бок. Технологический стек: - @LiteLLM для оркестрации - @Cometml's Opik для построения оценочного конвейера - @OpenRouterAI для доступа к передовым моделям - @LightningAI для хостинга CodeArena Поехали!🚀
Вот рабочий процесс: - Выберите модели для сравнения генерации кода - Импортируйте репозиторий GitHub и предложите его в качестве контекста для LLM - Используйте контекст + запрос для генерации кода из обеих моделей - Оцените сгенерированный код с помощью G-Eval от Opik Давайте реализуем это!
0️⃣ Загрузите API-ключи В этом демонстрационном примере мы получим доступ к GPT-5 через openai и остальным моделям, используя OpenRouter. Сохраните необходимые ключи в файле .env, чтобы загрузить их в окружение. Проверьте это 👇
1️⃣ Импортировать репозиторий GitHub Мы используем GitIngest для преобразования указанного пользователем репозитория GitHub в простой текстовый формат, готовый для LLM. LLM будут использовать эти данные в качестве контекста для генерации кода в ответ на запрос пользователя. Посмотрите это 👇
2️⃣ Метрика корректности кода Теперь мы создадим метрики оценки для нашей задачи, используя G-Eval от Opik. Эта метрика оценивает качество и корректность сгенерированного кода, сравнивая его с эталонным кодом. Посмотрите на это 👇
3️⃣ Метрика читаемости кода Эта метрика гарантирует, что код соответствует правильному форматированию и последовательным соглашениям об именовании. Она также оценивает качество комментариев и документации, что делает код легким для понимания. Посмотрите это 👇
4️⃣ Лучшие практики метрики Эта метрика гарантирует, что код модульный, эффективный и реализует правильную обработку ошибок. Посмотрите это 👇
5️⃣ Сгенерировать ответ модели Теперь мы готовы генерировать ответы от обеих моделей. Мы указываем загруженную кодовую базу в качестве контекста в запросе и одновременно получаем ответы от обеих моделей. Проверьте это 👇
6️⃣ Оцените сгенерированный код Мы оцениваем ответы, сгенерированные обеими моделями, используя вышеупомянутые метрики, предоставляя подробные обоснования для каждой метрики. Посмотрите на это👇
7️⃣ Streamlit UI Наконец, мы создаем интуитивно понятный интерфейс Streamlit, который упрощает сравнение и оценку обеих моделей в одном интерфейсе. Проверьте это 👇
Время тестировать.. Запрос 1: Создайте сервер MCP, который позволяет ИИ-агентам и чат-ботам читать код, управлять проблемами/PR, анализировать репозитории и автоматизировать рабочие процессы на GitHub. По трем метрикам: Корректность, Читаемость и Лучшие практики: - GPT-5 набрал: 9 - Calude Opus-4.1 набрал: 8.67
CodeArena позволяет вам сравнивать любые две модели. Я также кратко сравнил GPT-5 с Qwen3-Coder! Запрос 2: Сервер MCP подключается к API Notion, позволяя ИИ управлять заметками, списками дел и базами данных для повышения продуктивности и организации. Посмотрите это 👇
Вы можете найти весь код и все, что вам нужно для запуска CodeArena в @LightningAI Studio ниже! Попробуйте это:
Наконец, вот еще 10 оценок, которые я провел, используя Opik для создания серверов MCP. - GPT-5 выиграл в 6 случаях. - Claude Opus 4.1 выиграл в оставшихся 4 В целом, обе модели исключительно хороши, при этом GPT-5 немного лучше. Проверьте это 👇
Если вам это показалось полезным, поделитесь с вашей сетью. Найдите меня → @akshay_pachaar✔️ Для получения дополнительных идей и учебных материалов по LLM, AI-агентам и машинному обучению!
Akshay 🚀
Akshay 🚀8 часов назад
Давайте сравним GPT-5 и Claude Opus-4.1 для генерации кода:
14,45K