Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kursus Baru: Pasca-pelatihan LLM
Belajar pasca-pelatihan dan menyesuaikan LLM dalam kursus singkat ini, yang diajarkan oleh @BanghuaZ, Asisten Profesor di University of Washington @UW, dan salah satu pendiri @NexusflowX.
Melatih LLM untuk mengikuti instruksi atau menjawab pertanyaan memiliki dua tahap utama: pra-pelatihan dan pasca-pelatihan. Dalam pra-pelatihan, ia belajar memprediksi kata atau token berikutnya dari sejumlah besar teks yang tidak berlabel. Dalam pasca-pelatihan, ia mempelajari perilaku yang berguna seperti mengikuti instruksi, penggunaan alat, dan penalaran.
Pasca-pelatihan mengubah prediktor token tujuan umum—dilatih pada triliunan token teks yang tidak berlabel—menjadi asisten yang mengikuti instruksi dan melakukan tugas tertentu. Karena jauh lebih murah daripada pra-pelatihan, praktis bagi lebih banyak tim untuk memasukkan metode pasca-pelatihan ke dalam alur kerja mereka daripada pra-pelatihan.
Dalam kursus ini, Anda akan mempelajari tiga metode pasca-pelatihan umum—Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), dan Online Reinforcement Learning (RL)—dan cara menggunakan masing-masing secara efektif. Dengan SFT, Anda melatih model pada pasangan input dan respons output yang ideal. Dengan DPO, Anda memberikan respons yang disukai (dipilih) dan respons yang kurang disukai (ditolak) dan melatih model untuk mendukung output yang disukai. Dengan RL, model menghasilkan output, menerima skor hadiah berdasarkan umpan balik manusia atau otomatis, dan memperbarui model untuk meningkatkan kinerja.
Anda akan mempelajari konsep dasar, kasus penggunaan umum, dan prinsip untuk mengkurasi data berkualitas tinggi untuk pelatihan yang efektif. Melalui lab langsung, Anda akan mengunduh model yang telah dilatih sebelumnya dari Hugging Face dan melatihnya menggunakan SFT, DPO, dan RL untuk melihat bagaimana setiap teknik membentuk perilaku model.
Secara rinci, Anda akan:
- Pahami apa itu pasca-pelatihan, kapan menggunakannya, dan perbedaannya dengan pra-pelatihan.
- Buat alur SFT untuk mengubah model dasar menjadi model instruksi.
- Jelajahi bagaimana DPO membentuk kembali perilaku dengan meminimalkan kerugian kontras—menghukum respons yang buruk dan memperkuat respons yang disukai.
- Terapkan pipeline DPO untuk mengubah identitas asisten chat.
- Pelajari metode RL online seperti Optimizasi Kebijakan Proksimal (PPO) dan Pengoptimalan Kebijakan Relatif Grup (GRPO), dan cara merancang fungsi hadiah.
- Latih model dengan GRPO untuk meningkatkan kemampuan matematikanya menggunakan hadiah yang dapat diverifikasi.
Pasca-pelatihan adalah salah satu bidang pelatihan LLM yang paling berkembang pesat. Apakah Anda sedang membangun asisten khusus konteks akurasi tinggi, menyempurnakan nada model, atau meningkatkan akurasi khusus tugas, kursus ini akan memberi Anda pengalaman dengan teknik terpenting yang membentuk bagaimana LLM dilatih pasca-pelatihan saat ini.
Silakan daftar di sini:
109,59K
Teratas
Peringkat
Favorit