GPT-5 は、すべてを「モデル」と呼ぶことからようやく移行し、チャットボット、API、モデルの重みを区別し、それに応じて比較/ベンチマークを開始するための良いマイルストーンでしょうか? チャットボットの出力 (数十の異なるモデルの重みの結果である可能性があります) を 1 つのモデルの重み出力と比較することは意味がなく、車とエンジンを比較するようなものです (@random_walker @sayashk の本)
8.87K