Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Khóa học mới: Đào tạo sau cho LLMs
Học cách đào tạo sau và tùy chỉnh một LLM trong khóa học ngắn này, do @BanghuaZ, Giảng viên Trợ lý tại Đại học Washington @UW, và đồng sáng lập của @NexusflowX giảng dạy.
Đào tạo một LLM để tuân theo hướng dẫn hoặc trả lời câu hỏi có hai giai đoạn chính: đào tạo trước và đào tạo sau. Trong đào tạo trước, nó học cách dự đoán từ hoặc token tiếp theo từ một lượng lớn văn bản không được gán nhãn. Trong đào tạo sau, nó học các hành vi hữu ích như tuân theo hướng dẫn, sử dụng công cụ và lý luận.
Đào tạo sau biến một trình dự đoán token đa mục đích—được đào tạo trên hàng triệu token văn bản không được gán nhãn—thành một trợ lý tuân theo hướng dẫn và thực hiện các nhiệm vụ cụ thể. Bởi vì nó rẻ hơn nhiều so với đào tạo trước, nên nhiều đội ngũ có thể áp dụng các phương pháp đào tạo sau vào quy trình làm việc của họ hơn là đào tạo trước.
Trong khóa học này, bạn sẽ học ba phương pháp đào tạo sau phổ biến—Tinh chỉnh Giám sát (SFT), Tối ưu hóa Sở thích Trực tiếp (DPO), và Học Tăng cường Trực tuyến (RL)—và cách sử dụng mỗi phương pháp một cách hiệu quả. Với SFT, bạn đào tạo mô hình trên các cặp đầu vào và phản hồi đầu ra lý tưởng. Với DPO, bạn cung cấp cả phản hồi ưa thích (được chọn) và phản hồi ít ưa thích (bị từ chối) và đào tạo mô hình để ưu tiên đầu ra ưa thích. Với RL, mô hình tạo ra một đầu ra, nhận điểm thưởng dựa trên phản hồi của con người hoặc tự động, và cập nhật mô hình để cải thiện hiệu suất.
Bạn sẽ học các khái niệm cơ bản, các trường hợp sử dụng phổ biến, và các nguyên tắc để biên soạn dữ liệu chất lượng cao cho việc đào tạo hiệu quả. Thông qua các phòng thí nghiệm thực hành, bạn sẽ tải xuống một mô hình đã được đào tạo trước từ Hugging Face và đào tạo sau nó bằng SFT, DPO, và RL để xem cách mỗi kỹ thuật hình thành hành vi của mô hình.
Cụ thể, bạn sẽ:
- Hiểu đào tạo sau là gì, khi nào sử dụng nó, và nó khác gì so với đào tạo trước.
- Xây dựng một quy trình SFT để biến một mô hình cơ bản thành một mô hình hướng dẫn.
- Khám phá cách DPO định hình lại hành vi bằng cách giảm thiểu tổn thất tương phản—trừng phạt các phản hồi kém và củng cố các phản hồi ưa thích.
- Thực hiện một quy trình DPO để thay đổi danh tính của một trợ lý trò chuyện.
- Học các phương pháp RL trực tuyến như Tối ưu hóa Chính sách Gần (PPO) và Tối ưu hóa Chính sách Tương đối Nhóm (GRPO), và cách thiết kế các hàm thưởng.
- Đào tạo một mô hình với GRPO để cải thiện khả năng toán học của nó bằng cách sử dụng một phần thưởng có thể xác minh.
Đào tạo sau là một trong những lĩnh vực phát triển nhanh nhất trong đào tạo LLM. Dù bạn đang xây dựng một trợ lý cụ thể theo ngữ cảnh với độ chính xác cao, tinh chỉnh tông giọng của mô hình, hay cải thiện độ chính xác theo nhiệm vụ, khóa học này sẽ mang đến cho bạn kinh nghiệm với những kỹ thuật quan trọng nhất định hình cách LLM được đào tạo sau ngày nay.
Vui lòng đăng ký tại đây:
109,6K
Hàng đầu
Thứ hạng
Yêu thích