Новый курс: Постобучение LLM Научитесь постобучению и настройке LLM на этом коротком курсе, который ведет @BanghuaZ, доцент Вашингтонского университета @UW и соучредитель @NexusflowX. Обучение LLM следовать инструкциям или отвечать на вопросы включает два ключевых этапа: предобучение и постобучение. На этапе предобучения он учится предсказывать следующее слово или токен на основе больших объемов неразмеченного текста. На этапе постобучения он осваивает полезные навыки, такие как следование инструкциям, использование инструментов и логическое мышление. Постобучение преобразует универсальный предсказатель токенов, обученный на триллионах неразмеченных текстовых токенов, в помощника, который следует инструкциям и выполняет конкретные задачи. Поскольку это гораздо дешевле, чем предобучение, гораздо больше команд могут внедрить методы постобучения в свои рабочие процессы, чем предобучение. На этом курсе вы узнаете три распространенных метода постобучения — Супервизионное тонкое обучение (SFT), Оптимизация прямых предпочтений (DPO) и Онлайн-обучение с подкреплением (RL) — и как эффективно использовать каждый из них. С помощью SFT вы обучаете модель на парах входных данных и идеальных выходных ответов. С помощью DPO вы предоставляете как предпочтительный (выбранный), так и менее предпочтительный (отклоненный) ответ и обучаете модель отдавать предпочтение предпочтительному выходу. С помощью RL модель генерирует выходные данные, получает оценку вознаграждения на основе человеческой или автоматизированной обратной связи и обновляет модель для улучшения производительности. Вы узнаете основные концепции, распространенные случаи использования и принципы курирования высококачественных данных для эффективного обучения. На практических занятиях вы загрузите предобученную модель с Hugging Face и проведете постобучение с использованием SFT, DPO и RL, чтобы увидеть, как каждая техника формирует поведение модели. В деталях вы: - Поймете, что такое постобучение, когда его использовать и чем оно отличается от предобучения. - Создадите конвейер SFT, чтобы превратить базовую модель в модель-инструктор. - Изучите, как DPO изменяет поведение, минимизируя контрастную потерю — наказывая плохие ответы и усиливая предпочтительные. - Реализуете конвейер DPO, чтобы изменить идентичность чат-ассистента. - Узнаете о методах онлайн RL, таких как Оптимизация проксимальной политики (PPO) и Оптимизация групповой относительной политики (GRPO), и как разрабатывать функции вознаграждения. - Обучите модель с помощью GRPO, чтобы улучшить ее математические способности, используя проверяемое вознаграждение. Постобучение — одна из самых быстро развивающихся областей обучения LLM. Независимо от того, создаете ли вы высокоточный контекстно-специфический помощник, настраиваете тон модели или улучшаете точность выполнения задач, этот курс даст вам опыт работы с самыми важными техниками, формирующими то, как LLM обучаются постобучению сегодня. Пожалуйста, зарегистрируйтесь здесь:
109,59K