Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Давайте сравним GPT-5 и Claude Opus-4.1 для генерации кода:
Сегодня мы создаем CodeArena, где вы можете сравнить любые две модели генерации кода бок о бок.
Технологический стек:
- @LiteLLM для оркестрации
- @Cometml's Opik для построения оценочного конвейера
- @OpenRouterAI для доступа к передовым моделям
- @LightningAI для хостинга CodeArena
Поехали!🚀
Вот рабочий процесс:
- Выберите модели для сравнения генерации кода
- Импортируйте репозиторий GitHub и предложите его в качестве контекста для LLM
- Используйте контекст + запрос для генерации кода из обеих моделей
- Оцените сгенерированный код с помощью G-Eval от Opik
Давайте реализуем это!
0️⃣ Загрузите API-ключи
В этом демонстрационном примере мы получим доступ к GPT-5 через openai и остальным моделям, используя OpenRouter.
Сохраните необходимые ключи в файле .env, чтобы загрузить их в окружение.
Проверьте это 👇

1️⃣ Импортировать репозиторий GitHub
Мы используем GitIngest для преобразования указанного пользователем репозитория GitHub в простой текстовый формат, готовый для LLM.
LLM будут использовать эти данные в качестве контекста для генерации кода в ответ на запрос пользователя.
Посмотрите это 👇

2️⃣ Метрика корректности кода
Теперь мы создадим метрики оценки для нашей задачи, используя G-Eval от Opik.
Эта метрика оценивает качество и корректность сгенерированного кода, сравнивая его с эталонным кодом.
Посмотрите на это 👇

3️⃣ Метрика читаемости кода
Эта метрика гарантирует, что код соответствует правильному форматированию и последовательным соглашениям об именовании.
Она также оценивает качество комментариев и документации, что делает код легким для понимания.
Посмотрите это 👇

4️⃣ Лучшие практики метрики
Эта метрика гарантирует, что код модульный, эффективный и реализует правильную обработку ошибок.
Посмотрите это 👇

5️⃣ Сгенерировать ответ модели
Теперь мы готовы генерировать ответы от обеих моделей.
Мы указываем загруженную кодовую базу в качестве контекста в запросе и одновременно получаем ответы от обеих моделей.
Проверьте это 👇

6️⃣ Оцените сгенерированный код
Мы оцениваем ответы, сгенерированные обеими моделями, используя вышеупомянутые метрики, предоставляя подробные обоснования для каждой метрики.
Посмотрите на это👇

7️⃣ Streamlit UI
Наконец, мы создаем интуитивно понятный интерфейс Streamlit, который упрощает сравнение и оценку обеих моделей в одном интерфейсе.
Проверьте это 👇

Время тестировать..
Запрос 1: Создайте сервер MCP, который позволяет ИИ-агентам и чат-ботам читать код, управлять проблемами/PR, анализировать репозитории и автоматизировать рабочие процессы на GitHub.
По трем метрикам: Корректность, Читаемость и Лучшие практики:
- GPT-5 набрал: 9
- Calude Opus-4.1 набрал: 8.67

CodeArena позволяет вам сравнивать любые две модели. Я также кратко сравнил GPT-5 с Qwen3-Coder!
Запрос 2: Сервер MCP подключается к API Notion, позволяя ИИ управлять заметками, списками дел и базами данных для повышения продуктивности и организации.
Посмотрите это 👇

Вы можете найти весь код и все, что вам нужно для запуска CodeArena в @LightningAI Studio ниже!
Попробуйте это:
Наконец, вот еще 10 оценок, которые я провел, используя Opik для создания серверов MCP.
- GPT-5 выиграл в 6 случаях.
- Claude Opus 4.1 выиграл в оставшихся 4
В целом, обе модели исключительно хороши, при этом GPT-5 немного лучше.
Проверьте это 👇

Если вам это показалось полезным, поделитесь с вашей сетью.
Найдите меня → @akshay_pachaar✔️
Для получения дополнительных идей и учебных материалов по LLM, AI-агентам и машинному обучению!

8 часов назад
Давайте сравним GPT-5 и Claude Opus-4.1 для генерации кода:
14,45K
Топ
Рейтинг
Избранное