コード生成のためにGPT-5とClaude Opus-4.1を比較してみましょう。
現在は、任意の 2 つのコード生成モデルを並べて比較できる CodeArena を構築しています。 技術スタック: - オーケストレーションの@LiteLLM - 評価パイプラインを構築するための@CometmlのOpik - 最先端モデルへのアクセス@OpenRouterAI - CodeArenaをホストするための@LightningAI 行きましょう!🚀
ワークフローは次のとおりです。 - コード生成比較用のモデルを選択する - GitHub リポジトリをインポートし、それをコンテキストとして LLM に提供する - コンテキスト + クエリを使用して、両方のモデルからコードを生成します - OpikのG-Evalを使用して生成されたコードを評価する これを実装しましょう!
0️⃣ API キーを読み込む このデモでは、openaiを介してGPT-5にアクセスし、OpenRouterを使用して残りのモデルにアクセスします。 必要なキーを .env ファイルに格納して、環境に読み込みます。 これを👇チェックしてください
1️⃣ GitHubリポジトリの取り込み GitIngest を使用して、ユーザー指定の GitHub リポジトリを、LLM 対応の簡単なテキスト データに変換します。 LLM はこのデータをコンテキストとして利用し、ユーザーのクエリに応答してコードを生成します。 これがいいと思います 👇
2️⃣ コードの正確性メトリック 次に、OpikのG-Evalを使用してタスクの評価メトリックを作成します。 この指標は、生成されたコードの品質と正確性を、参照グラウンドトゥルースコードと比較することにより評価します。 これがいいと思います 👇
3️⃣ コードの可読性メトリック このメトリックにより、コードが適切な書式設定と一貫した命名規則に準拠していることが保証されます。 また、コードを理解しやすくするコメントとドキュメント文字列の品質も評価します。 これがいいと思います 👇
4️⃣ ベスト プラクティス メトリック この指標により、コードがモジュール化され、効率的であり、適切なエラー処理が実装されることが保証されます。 これがいいと思います 👇
5️⃣ モデル応答の生成 これで、両方のモデルから応答を生成する準備が整いました。 取り込まれたコードベースをプロンプトのコンテキストとして指定し、両方のモデルからの応答を並行してストリーミングします。 これを👇チェックしてください
6️⃣ 生成されたコードを評価する 上記の指標を使用して両方のモデルによって生成された応答を評価し、各指標の詳細な推論を提供します。 これがいいと思います👇
7️⃣ Streamlit UI 最後に、直感的なStreamlit UIを作成し、単一のインターフェース内で両方のモデルの比較と評価を簡素化します。 これを👇チェックしてください
テストする時間.. クエリ 1: AI エージェントとチャットボットが GitHub でコードの読み取り、課題/PR の管理、リポジトリの分析、ワークフローの自動化を可能にする MCP サーバーを構築します。 3つの指標(正確性、読みやすさ、ベストプラクティス): - GPT-5 のスコア: 9 - Calude Opus-4.1 スコア: 8.67
CodeArena では、任意の 2 つのモデルを比較できます。また、GPT-5 と Qwen3-Coder を簡単に比較しました。 クエリ 2: MCP サーバーは Notion の API に接続し、AI がメモ、To Do リスト、データベースを管理できるようにして、生産性と整理性を向上させます。 これがいいと思います 👇
CodeArena を実行するために必要なすべてのコードと、以下の @LightningAI Studio ですべてを見つけることができます。 試してみてください:
最後に、MCP サーバーの構築で Opik を使用して実行したさらに 10 の評価を次に示します。 - GPT-5が勝ったのは6件。 - 残りの4回でクロード・オーパス4.1ウォン 全体として、どちらのモデルも非常に優れており、GPT-5 はわずかに優れています。 これを👇チェックしてください
洞察力に富んだと思われた場合は、ネットワークと再共有してください。 → @akshay_pachaar✔️ LLM、AI エージェント、機械学習に関するその他の洞察とチュートリアルについては、こちらをご覧ください。
Akshay 🚀
Akshay 🚀16時間前
コード生成のためにGPT-5とClaude Opus-4.1を比較してみましょう。
19.53K