Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Novo Curso: Pós-formação de LLMs
Aprenda a pós-treinar e personalizar um LLM neste curso de curta duração, ministrado por @BanghuaZ, professor assistente da Universidade de Washington @UW e cofundador da @NexusflowX.
Treinar um LLM para seguir instruções ou responder a perguntas tem duas etapas principais: pré-treinamento e pós-treinamento. No pré-treinamento, ele aprende a prever a próxima palavra ou token a partir de grandes quantidades de texto não rotulado. No pós-treinamento, ele aprende comportamentos úteis, como seguir instruções, uso de ferramentas e raciocínio.
O pós-treinamento transforma um preditor de token de uso geral, treinado em trilhões de tokens de texto não rotulados, em um assistente que segue instruções e executa tarefas específicas. Por ser muito mais barato do que o pré-treinamento, é prático para muito mais equipes incorporar métodos de pós-treinamento em seus fluxos de trabalho do que o pré-treinamento.
Neste curso, você aprenderá três métodos comuns de pós-treinamento - Ajuste fino supervisionado (SFT), Otimização de preferência direta (DPO) e Aprendizado por reforço on-line (RL) - e como usar cada um deles de forma eficaz. Com o SFT, você treina o modelo em pares de respostas de entrada e saída ideais. Com o DPO, você fornece uma resposta preferencial (escolhida) e uma menos preferida (rejeitada) e treina o modelo para favorecer a saída preferencial. Com a RL, o modelo gera uma saída, recebe uma pontuação de recompensa com base em comentários humanos ou automatizados e atualiza o modelo para melhorar o desempenho.
Você aprenderá os conceitos básicos, casos de uso comuns e princípios para selecionar dados de alta qualidade para um treinamento eficaz. Por meio de laboratórios práticos, você baixará um modelo pré-treinado do Hugging Face e o treinará posteriormente usando SFT, DPO e RL para ver como cada técnica molda o comportamento do modelo.
Em detalhes, você irá:
- Entenda o que é pós-treino, quando usá-lo e como ele difere do pré-treino.
- Crie um pipeline SFT para transformar um modelo base em um modelo de instrução.
- Explore como o DPO remodela o comportamento, minimizando a perda contrastiva, penalizando respostas ruins e reforçando as preferidas.
- Implemente um pipeline de DPO para alterar a identidade de um assistente de chat.
- Aprenda métodos de RL online, como Otimização de Política Proximal (PPO) e Otimização de Política Relativa de Grupo (GRPO), e como projetar funções de recompensa.
- Treine um modelo com GRPO para melhorar seus recursos matemáticos usando uma recompensa verificável.
O pós-treinamento é uma das áreas de desenvolvimento mais rápido do treinamento LLM. Esteja você criando um assistente específico de contexto de alta precisão, ajustando o tom de um modelo ou melhorando a precisão específica da tarefa, este curso lhe dará experiência com as técnicas mais importantes que moldam como os LLMs são pós-treinados hoje.
Por favor, inscreva-se aqui:
109,59K
Melhores
Classificação
Favoritos