Novo Curso: Pós-formação de LLMs Aprenda a pós-treinar e personalizar um LLM neste curso de curta duração, ministrado por @BanghuaZ, professor assistente da Universidade de Washington @UW e cofundador da @NexusflowX. Treinar um LLM para seguir instruções ou responder a perguntas tem duas etapas principais: pré-treinamento e pós-treinamento. No pré-treinamento, ele aprende a prever a próxima palavra ou token a partir de grandes quantidades de texto não rotulado. No pós-treinamento, ele aprende comportamentos úteis, como seguir instruções, uso de ferramentas e raciocínio. O pós-treinamento transforma um preditor de token de uso geral, treinado em trilhões de tokens de texto não rotulados, em um assistente que segue instruções e executa tarefas específicas. Por ser muito mais barato do que o pré-treinamento, é prático para muito mais equipes incorporar métodos de pós-treinamento em seus fluxos de trabalho do que o pré-treinamento. Neste curso, você aprenderá três métodos comuns de pós-treinamento - Ajuste fino supervisionado (SFT), Otimização de preferência direta (DPO) e Aprendizado por reforço on-line (RL) - e como usar cada um deles de forma eficaz. Com o SFT, você treina o modelo em pares de respostas de entrada e saída ideais. Com o DPO, você fornece uma resposta preferencial (escolhida) e uma menos preferida (rejeitada) e treina o modelo para favorecer a saída preferencial. Com a RL, o modelo gera uma saída, recebe uma pontuação de recompensa com base em comentários humanos ou automatizados e atualiza o modelo para melhorar o desempenho. Você aprenderá os conceitos básicos, casos de uso comuns e princípios para selecionar dados de alta qualidade para um treinamento eficaz. Por meio de laboratórios práticos, você baixará um modelo pré-treinado do Hugging Face e o treinará posteriormente usando SFT, DPO e RL para ver como cada técnica molda o comportamento do modelo. Em detalhes, você irá: - Entenda o que é pós-treino, quando usá-lo e como ele difere do pré-treino. - Crie um pipeline SFT para transformar um modelo base em um modelo de instrução. - Explore como o DPO remodela o comportamento, minimizando a perda contrastiva, penalizando respostas ruins e reforçando as preferidas. - Implemente um pipeline de DPO para alterar a identidade de um assistente de chat. - Aprenda métodos de RL online, como Otimização de Política Proximal (PPO) e Otimização de Política Relativa de Grupo (GRPO), e como projetar funções de recompensa. - Treine um modelo com GRPO para melhorar seus recursos matemáticos usando uma recompensa verificável. O pós-treinamento é uma das áreas de desenvolvimento mais rápido do treinamento LLM. Esteja você criando um assistente específico de contexto de alta precisão, ajustando o tom de um modelo ou melhorando a precisão específica da tarefa, este curso lhe dará experiência com as técnicas mais importantes que moldam como os LLMs são pós-treinados hoje. Por favor, inscreva-se aqui:
109,59K