⏱ 2 ชม. 36 นาที 📚 26 บทเรียน 🎧 เวอร์ชันเสียง

การจัดเรียง LLM: การเรียนรู้แบบเสริมกำลังจากข้อเสนอแนะของมนุษย์ (RLHF)

เชี่ยวชาญพื้นฐานของการจัดเรียงโมเดลภาษาขนาดใหญ่โดยใช้ RLHF และการสร้างแบบจำลองรางวัลเพื่อสร้างแอปพลิเคชัน AI ที่ปลอดภัยและมีประโยชน์มากขึ้น

💬 ผู้สอน AI
ถามเกี่ยวกับบทเรียนใดก็ได้ แล้วรับคำตอบที่ชัดเจนทันที ทุกเมื่อ
🕐 เริ่มเมื่อไรก็ได้
ไม่มีตารางหรือเดดไลน์ — เรียนตามจังหวะของคุณ เมื่อไรก็ได้
🌐 เป็นภาษาไทย
บทเรียน แบบฝึกหัด และใบรับรอง — ทั้งหมดเป็นภาษาของคุณอย่างครบถ้วน

เกี่ยวกับคอร์สนี้

การจัดเรียงโมเดลภาษาขนาดใหญ่ให้เป็นประโยชน์ ซื่อสัตย์ และไม่เป็นอันตราย เป็นหนึ่งในความท้าทายที่สำคัญที่สุดในการพัฒนา AI สมัยใหม่ Reinforcement Learning from Human Feedback (RLHF) เป็นระเบียบวิธีหลักที่ใช้ในการนำทางโมเดลดิบให้กลายเป็นผู้ช่วยที่มีความสามารถ ตลอดหลักสูตรที่เน้นข้อความนี้ คุณจะได้เรียนรู้วิธีการจัดเรียงและปรับแต่งโมเดลแบบ open-weights เช่น Llama โดยเริ่มจากแนวคิดพื้นฐานและดำเนินการผ่านกระบวนการจัดเรียงทั้งหมด คุณจะพัฒนาความเข้าใจที่ชัดเจนเกี่ยวกับ reward models, policy optimization และการประเมินโมเดลสมัยใหม่

สิ่งที่คุณจะได้เรียนรู้:
- ทำความเข้าใจแนวคิดพื้นฐานของการจัดเรียง LLM และเหตุใดการเรียนรู้แบบเสริมกำลังจึงจำเป็น
- กำหนดค่า reward models เพื่อจับความต้องการของมนุษย์และนำทางพฤติกรรมของโมเดล
- ประยุกต์ใช้เทคนิค policy optimization เพื่อปรับแต่งโมเดลแบบ open-weights
- ประเมินประสิทธิภาพและความปลอดภัยของโมเดลโดยใช้เมตริกการจัดเรียงมาตรฐาน
- เปรียบเทียบ RLHF กับกลยุทธ์การจัดเรียงสมัยใหม่อื่นๆ เช่น Direct Preference Optimization (DPO)

หลักสูตรนี้เริ่มต้นด้วยคำศัพท์ที่จำเป็นและทฤษฎีเบื้องหลังข้อมูลความชอบของมนุษย์ ก่อนที่จะนำคุณผ่านกระบวนการทีละขั้นตอนของการฝึกอบรม reward model และการปรับแต่ง LLM ของคุณ หลักสูตรนี้ออกแบบมาสำหรับนักพัฒนาซอฟต์แวร์ นักวิทยาศาสตร์ข้อมูล และผู้เริ่มต้น AI ที่ต้องการทำความเข้าใจว่าโมเดลภาษาที่ทันสมัยได้รับการฝึกอบรมเพื่อความปลอดภัยและประโยชน์ใช้สอยอย่างไร ไม่จำเป็นต้องมีประสบการณ์ด้าน reinforcement learning มาก่อน เริ่มอ่านวันนี้เพื่อปลดล็อกเทคนิคหลักเบื้องหลังการจัดเรียง AI สมัยใหม่

สิ่งที่คุณจะได้รับ

📜 ใบประกาศนียบัตร
เพิ่มในโปรไฟล์ LinkedIn ของคุณ
💬 ติวเตอร์ AI ส่วนตัว
ติดขัดในบทเรียน? ถามติวเตอร์ในตัวของคุณได้ทุกอย่าง ทุกเวลา
🎧 รวมเวอร์ชันเสียง
เรียนได้ทุกที่ ไม่ต้องดูจอ
♾️ เข้าถึงตลอดชีพ
กลับมาเรียนได้ตลอด ไม่มีหมดอายุ
📱 โทรศัพท์หรือคอมพิวเตอร์
ใช้งานได้ทุกที่ ทุกอุปกรณ์
💸 คืนเงิน 14 วัน
ไม่ต้องอธิบาย
⚡ กระชับและตรงประเด็น
2 ชม. 36 นาที เนื้อหาเชิงปฏิบัติ

ใบประกาศนียบัตร

ทุกคอร์สที่คุณเรียนจบบน PickAClass จะออกใบรับรองแบบนี้ — ต้นฉบับ มีรหัสของตัวเอง ตรวจสอบได้ทาง URL และระบุรายละเอียดสิ่งที่แสดงจริง

PickAClass

โปรไฟล์ทักษะ · ตรวจสอบได้

เอกสาร

ใบรับรองความเชี่ยวชาญ

ขอรับรองว่า

ชื่อ นามสกุล

ได้แสดงความเชี่ยวชาญสำเร็จใน

การจัดเรียง LLM: การเรียนรู้แบบเสริมกำลังจากข้อเสนอแนะของมนุษย์ (RLHF)

ทักษะที่แสดง

✓

การวิเคราะห์รูปแบบพฤติกรรม

พื้นฐาน

1.2 ชม.

✓

กรอบสถาปัตยกรรมการตัดสินใจ

ชำนาญ

1.4 ชม.

✓

การออกแบบการทดสอบ A/B

ชำนาญ

1.7 ชม.

✓

การเขียนสำเร็จรูปพฤติกรรม

ขั้นสูง

1.9 ชม.

PickAClass — ชื่อ นามสกุล

การจัดเรียง LLM: การเรียนรู้แบบเสริมกำลังจากข้อเสนอแนะของมนุษย์ (RLHF)

หน้า 2 จาก 2

รายละเอียดผลงาน

สรุปงานเรียน

บทเรียนที่จบ 14 / 14

คำถามฝึกหัด 26 / 28

งานที่ส่ง 4 (เฉลี่ย 4.5 / 5)

โครงการ capstone ตรวจแล้ว — 4.6 / 5

ฝึกทั้งหมด 6.2 ชม.

เกณฑ์ผลงาน

อันดับในรุ่น 12% แรกจาก 1,625

เวลาที่ใช้จนจบ 11 วัน (มัธยฐาน: 22)

คะแนนความเชี่ยวชาญ 91 / 100

คะแนนคำถามฝึกหัด 94%

การยืนยันทักษะ เส้นทางทักษะที่ยืนยันแล้ว

ดูตัวอย่างใบรับรอง →

รีวิว

ยังไม่มีรีวิว — เป็นคนแรกที่แชร์ประสบการณ์

ผู้เรียนคนอื่นเรียน

⚡ เหมาะสำหรับผู้เริ่มต้น 🎓 มีใบรับรอง

คำถามที่พบบ่อย

ฉันต้องใช้อะไรในการเรียนคอร์สนี้? +

แค่โทรศัพท์หรือคอมพิวเตอร์ที่มีอินเทอร์เน็ต ไม่ต้องติดตั้งหรือใช้อุปกรณ์พิเศษ

ฉันชำระเงินอย่างไร? +

ผ่านบัตรด้วย Stripe เราไม่เก็บข้อมูลบัตร — Stripe จัดการอย่างปลอดภัย

ฉันขอคืนเงินได้ไหม? +

ใช่ — คืนเงินเต็มจำนวนใน 14 วัน ไม่ต้องอธิบาย

ฉันมีสิทธิ์เข้าถึงนานเท่าไร? +

ตลอดไป เมื่อซื้อแล้วคอร์สเป็นของคุณ กลับมาเรียนได้ตลอด

ฉันจะได้ใบประกาศนียบัตรไหม? +

ได้ เมื่อเรียนจบจะได้รับใบประกาศนียบัตรที่เพิ่มในโปรไฟล์ LinkedIn ได้

ออกแบบสำหรับผู้เรียนใน

เทคโนโลยี ดีไซน์ การเงิน การตลาด สาธารณสุข การศึกษา ธุรกิจการบริการ อุตสาหกรรม

⭐ ผู้เรียนเลือก 🎓 มีใบรับรอง

$9.99

✓ ราคาเดียว $9.99 — ทุกคอร์ส ตลอดไป ไม่มีวันหมดอายุ

ซื้อเลย →

หรือ

รับไปในราคา $0 ด้วยแพ็กสมาชิก

10 คอร์สทุกเดือน · $49.99/เดือน · ยกเลิกได้ทุกเมื่อ

✓ ใบประกาศนียบัตร
✓ รวมเวอร์ชันเสียง
✓ เข้าถึงตลอดชีพ
✓ ชำระครั้งเดียว · ไม่ต่ออายุอัตโนมัติ
✓ คืนเงินภายใน 14 วัน
✓ โทรศัพท์หรือคอมพิวเตอร์

ชำระเงินปลอดภัยผ่าน Stripe

$9.99 หรือ $0 ด้วยแพ็กสมาชิก

ซื้อเลย →

การจัดเรียง LLM: การเรียนรู้แบบเสริมกำลังจากข้อเสนอแนะของมนุษย์ (RLHF)

เกี่ยวกับคอร์สนี้

สิ่งที่คุณจะได้รับ

ใบประกาศนียบัตร

รีวิว

เขียนรีวิว

ผู้เรียนคนอื่นเรียน

การเรียนรู้แบบเสริมแรงลึกในภาษาไพทอน: การแนะนำแบบสมัยใหม่

Reinforcement Learning: จาก Q-Learning สู่ Deep Policy Gradients

การเรียนรู้แบบเสริมกำลังสำหรับโปรแกรมเมอร์: สร้างเอเจนต์ AI ของคุณเอง

บทนำสู่ Reinforcement Learning: พื้นฐานและอัลกอริทึม

คำถามที่พบบ่อย