Я думаю, що GPT-5 має бути лише крихітним оновленням на тлі коротких термінів. EPOCH стверджує, що GPT-5 не базується на масштабуванні базової моделі. Припустимо, що це правда. Що це говорить про передтренувальну підготовку? Варіант 1: масштабування перед тренуванням вдарилося об стіну (або, принаймні, значно знизило виграші). Варіант 2: Просто потрібно більше часу, щоб правильно зробити наступний крок перед тренуванням. Принципової межі не існує; Просто ми ще не розібралися. Варіант 3: Ніякої стіни перед підготовкою, тільки базова економіка. Більшість завдань, для яких люди використовують моделі зараз, можуть не вимагати більших базових моделей, тому важливіше зосередитися на зручності використання. Що потрібно для AGI? Варіант 1: Потрібні додаткові вдосконалення базової моделі. Варіант 2: RL – це все, що вам потрібно. Поточні базові моделі масштабуватимуться до кінця, якщо ми кинемо на них достатню кількість RL. Здається, що це впливає на часові рамки лише в тому випадку, якщо потрібна стіна перед підготовкою та додаткові вдосконалення. У всіх інших світах серйозних оновлень немає. Особисто я вважаю, що GPT-5 має бути крихітним оновленням у бік повільніших часових ліній, але більшість моїх переконань щодо короткої часової шкали все одно походять від масштабування RL.
5,86K