Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Новый курс: Постобучение LLM
Научитесь постобучению и настройке LLM на этом коротком курсе, который ведет @BanghuaZ, доцент Вашингтонского университета @UW и соучредитель @NexusflowX.
Обучение LLM следовать инструкциям или отвечать на вопросы включает два ключевых этапа: предобучение и постобучение. На этапе предобучения он учится предсказывать следующее слово или токен на основе больших объемов неразмеченного текста. На этапе постобучения он осваивает полезные навыки, такие как следование инструкциям, использование инструментов и логическое мышление.
Постобучение преобразует универсальный предсказатель токенов, обученный на триллионах неразмеченных текстовых токенов, в помощника, который следует инструкциям и выполняет конкретные задачи. Поскольку это гораздо дешевле, чем предобучение, гораздо больше команд могут внедрить методы постобучения в свои рабочие процессы, чем предобучение.
На этом курсе вы узнаете три распространенных метода постобучения — Супервизионное тонкое обучение (SFT), Оптимизация прямых предпочтений (DPO) и Онлайн-обучение с подкреплением (RL) — и как эффективно использовать каждый из них. С помощью SFT вы обучаете модель на парах входных данных и идеальных выходных ответов. С помощью DPO вы предоставляете как предпочтительный (выбранный), так и менее предпочтительный (отклоненный) ответ и обучаете модель отдавать предпочтение предпочтительному выходу. С помощью RL модель генерирует выходные данные, получает оценку вознаграждения на основе человеческой или автоматизированной обратной связи и обновляет модель для улучшения производительности.
Вы узнаете основные концепции, распространенные случаи использования и принципы курирования высококачественных данных для эффективного обучения. На практических занятиях вы загрузите предобученную модель с Hugging Face и проведете постобучение с использованием SFT, DPO и RL, чтобы увидеть, как каждая техника формирует поведение модели.
В деталях вы:
- Поймете, что такое постобучение, когда его использовать и чем оно отличается от предобучения.
- Создадите конвейер SFT, чтобы превратить базовую модель в модель-инструктор.
- Изучите, как DPO изменяет поведение, минимизируя контрастную потерю — наказывая плохие ответы и усиливая предпочтительные.
- Реализуете конвейер DPO, чтобы изменить идентичность чат-ассистента.
- Узнаете о методах онлайн RL, таких как Оптимизация проксимальной политики (PPO) и Оптимизация групповой относительной политики (GRPO), и как разрабатывать функции вознаграждения.
- Обучите модель с помощью GRPO, чтобы улучшить ее математические способности, используя проверяемое вознаграждение.
Постобучение — одна из самых быстро развивающихся областей обучения LLM. Независимо от того, создаете ли вы высокоточный контекстно-специфический помощник, настраиваете тон модели или улучшаете точность выполнения задач, этот курс даст вам опыт работы с самыми важными техниками, формирующими то, как LLM обучаются постобучению сегодня.
Пожалуйста, зарегистрируйтесь здесь:
109,59K
Топ
Рейтинг
Избранное