Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Novo Curso: Pós-treinamento de LLMs
Aprenda a pós-treinar e personalizar um LLM neste curso curto, ministrado por @BanghuaZ, Professor Assistente na Universidade de Washington @UW, e co-fundador da @NexusflowX.
Treinar um LLM para seguir instruções ou responder a perguntas tem duas etapas principais: pré-treinamento e pós-treinamento. No pré-treinamento, ele aprende a prever a próxima palavra ou token a partir de grandes quantidades de texto não rotulado. No pós-treinamento, ele aprende comportamentos úteis, como seguir instruções, uso de ferramentas e raciocínio.
O pós-treinamento transforma um preditor de tokens de uso geral—treinado em trilhões de tokens de texto não rotulados—em um assistente que segue instruções e realiza tarefas específicas. Como é muito mais barato do que o pré-treinamento, é prático para muitas mais equipes incorporar métodos de pós-treinamento em seus fluxos de trabalho do que o pré-treinamento.
Neste curso, você aprenderá três métodos comuns de pós-treinamento—Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) e Online Reinforcement Learning (RL)—e como usar cada um deles de forma eficaz. Com SFT, você treina o modelo em pares de entrada e respostas ideais. Com DPO, você fornece tanto uma resposta preferida (escolhida) quanto uma menos preferida (rejeitada) e treina o modelo para favorecer a saída preferida. Com RL, o modelo gera uma saída, recebe uma pontuação de recompensa com base no feedback humano ou automatizado, e atualiza o modelo para melhorar o desempenho.
Você aprenderá os conceitos básicos, casos de uso comuns e princípios para curar dados de alta qualidade para um treinamento eficaz. Através de laboratórios práticos, você fará o download de um modelo pré-treinado do Hugging Face e o pós-treinará usando SFT, DPO e RL para ver como cada técnica molda o comportamento do modelo.
Em detalhes, você:
- Compreenderá o que é o pós-treinamento, quando usá-lo e como ele difere do pré-treinamento.
- Construirá um pipeline SFT para transformar um modelo base em um modelo instrucional.
- Explorar como o DPO remodela o comportamento minimizando a perda contrastiva—penalizando respostas ruins e reforçando as preferidas.
- Implementará um pipeline DPO para mudar a identidade de um assistente de chat.
- Aprenderá métodos de RL online, como Proximal Policy Optimization (PPO) e Group Relative Policy Optimization (GRPO), e como projetar funções de recompensa.
- Treinará um modelo com GRPO para melhorar suas capacidades matemáticas usando uma recompensa verificável.
O pós-treinamento é uma das áreas de treinamento de LLMs que mais se desenvolve rapidamente. Quer você esteja construindo um assistente específico de contexto com alta precisão, ajustando o tom de um modelo ou melhorando a precisão específica de tarefas, este curso lhe dará experiência com as técnicas mais importantes que moldam como os LLMs são pós-treinados hoje.
Por favor, inscreva-se aqui:
109,59K
Top
Classificação
Favoritos