Новий курс: Пост-тренінг LLM Навчіться виконувати LLM після навчання та налаштовувати LLM у цьому короткому курсі, який викладає @BanghuaZ, доцент Університету Вашингтона @UW та співзасновник @NexusflowX. Навчання LLM слідувати інструкціям або відповідати на запитання має два ключові етапи: до тренування та після тренінгу. На передтренувальній підготовці він вчиться передбачати наступне слово або токен з великої кількості немаркованого тексту. Після тренування він вивчає корисну поведінку, таку як дотримання інструкцій, використання інструментів та міркування. Посттренінг перетворює предиктора токенів загального призначення, навченого на трильйонах немаркованих текстових токенів, на помічника, який виконує інструкції та виконує конкретні завдання. Оскільки це набагато дешевше, ніж попереднє навчання, для набагато більшої кількості команд практично включати методи після тренування у свої робочі процеси, ніж попереднє навчання. У цьому курсі ви дізнаєтеся про три поширені методи після тренування — Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) і Онлайн-навчання з підкріпленням (RL) — і про те, як ефективно використовувати кожен з них. За допомогою SFT ви тренуєте модель на парах вхідних та ідеальних вихідних відгуків. За допомогою DPO ви надаєте як бажану (вибрану), так і менш бажану (відхилену) відповідь і тренуєте модель віддавати перевагу бажаному виходу. За допомогою RL модель генерує вихідні дані, отримує оцінку винагороди на основі людського або автоматизованого зворотного зв'язку та оновлює модель для покращення продуктивності. Ви дізнаєтесь про основні концепції, поширені випадки використання та принципи зберігання високоякісних даних для ефективного навчання. Завдяки практичним лабораторіям ви завантажите попередньо навчену модель від Hugging Face і пройдете тренування за допомогою SFT, DPO та RL, щоб побачити, як кожна техніка формує поведінку моделі. Детальніше, ви: - Зрозумієте, що таке посттренувар, коли його використовувати і чим він відрізняється від передтренувального. - Побудуйте пайплайн SFT для перетворення базової моделі на модель інструктажу. - Дослідіть, як DPO змінює поведінку, мінімізуючи контрастні втрати, караючи за погані відповіді та підкріплюючи бажані. - Запровадьте пайплайн DPO, щоб змінити ідентичність чат-асистента. - Вивчіть онлайн-методи RL, такі як оптимізація проксимальних політик (PPO) та оптимізація групових відносних політик (GRPO), а також як розробляти функції винагороди. - Тренуйте модель за допомогою GRPO, щоб покращити її математичні можливості, використовуючи винагороду, яку можна перевірити. Пост-тренінг є одним з найбільш швидко розвиваються напрямків навчання LLM. Незалежно від того, чи створюєте ви високоточного помічника з урахуванням контексту, точно налаштовуєте тон моделі чи покращуєте точність конкретного завдання, цей курс надасть вам досвід роботи з найважливішими методами, що формують те, як LLM проходять пост-навчання сьогодні. Будь ласка, зареєструйтесь тут:
109,55K