ไขสมอง ChatGPT ทำความเข้าใจและอย่าเชื่อทั้งหมด

16 Dec 2022
Webmaster
Articles

OpenAI ฝึกโมเดลนี้โดยใช้วิธี Reinforcement Learning from Human Feedback (RLHF) โดยเป็นวิธีเดียวกับ InstructGPT แต่มีความแตกต่างเล็กน้อยในการตั้งค่าการรวบรวมข้อมูล ทาง OpenAI ฝึกโมเดลเริ่มต้นโดยใช้การปรับข้อมูลอย่างละเอียดภายใต้การดูแลของ AI เทรนเนอร์ ที่เป็นมนุษย์ซึ่งได้จัดเตรียมบทสนทนาที่มีปฏิสัมพันธ์กันทั้งสองฝ่าย นั่นคือผู้ใช้และผู้ช่วย AI ทาง OpenAI ให้ผู้ฝึก AI เข้าถึงคำแนะนำสำหรับเขียนแบบจำลองเพื่อช่วยทาง OpenAI เขียนคำตอบ

จากนั้นนำบทสนทนาที่ได้มาจัดลำดับคุณภาพแล้วเพื่อให้รางวัล เพื่อสร้างเป็น Rewarding Model แยกอีกชุด แล้วนำ rewarding model ไปปรับแต่งโมเดลหลักด้วยเทคนิค Proximal Policy Optimization (PPO) อีกทีหนึ่ง เพราะจำเป็นต้องรวบรวมข้อมูลเปรียบเทียบ ซึ่งประกอบด้วยแบบจำลองการตอบสนองตั้งแต่สองแบบขึ้นไปที่จัดอันดับตามคุณภาพ ในการรวบรวมข้อมูลนี้ OpenAI นำการสนทนาที่ผู้ฝึกสอน AI มีกับแชทบอท โดยสุ่มเลือกข้อความที่เขียนโดยโมเดล สุ่มตัวอย่างทางเลือกหลาย ๆ ทาง(เราถึงได้เห็นว่ามันสามารถตอบได้หลายรูปแบบมากจากโจทย์เดียวกัน อนาคตจะเก่งขึ้นเรื่อย ๆ เพราะมันคิดได้หลายแนวมากกว่าคนทั่วไป) และให้ผู้ฝึกสอน AI จัดอันดับข้อความเหล่านั้น เมื่อใช้โมเดลการให้รางวัลเหล่านี้ เราสามารถปรับแต่งโมเดลได้อย่างละเอียดโดยใช้ Proximal Policy Optimization และทำกระบวนการนี้ซ้ำหลายครั้ง และกระบวนการเทรนทั้งหมดทำอยู่บน Super Computer ของ Microsoft Azure ที่ร่วมลงทุนใน OpenAI อยู่ก่อนหน้านี้(MS เอาดีด้าน AI มานานแล้วไม่ต่างจาก Google) ChatGPT ได้รับการปรับแต่งอย่างละเอียดจากโมเดลในซีรีส์ GPT-3.5 ซึ่งสิ้นสุดการฝึกอบรมระบบในช่วงต้นปี 2022 รอรุ่นต่อไป GPT-4

ข้อจำกัดของ ChatGPT

บางครั้ง ChatGPT เขียนคำตอบที่ฟังดูน่าเชื่อถือแต่ไม่ถูกต้องเสมอไปหรือไร้สาระก็มี การแก้ไขปัญหานี้เป็นสิ่งที่ท้าทาย เนื่องจาก

1. ในระหว่างการฝึกอบรม RL ขณะนี้ไม่มีแหล่งที่มาของความจริง (แหล่งข้อมูลที่เชื่อถือได้ อารมณ์แบบใครใส่อะไรก็เชื่อ (ผู้ฝึกสอน AI)

2. ฝึกต้นแบบให้ระมัดระวังมากขึ้น ทำให้ปฏิเสธคำถามที่ตอบได้ถูกต้อง

3. การฝึกอบรมภายใต้การดูแลของคนทำให้แบบจำลองเข้าใจผิด เพราะคำตอบในอุดมคติขึ้นอยู่กับสิ่งที่แบบจำลองรู้ มากกว่าสิ่งที่มนุษย์สาธิตให้รับรู้

ChatGPT ไวต่อการปรับแต่งวลีอินพุตหรือพยายามใช้ Command Prompt เดียวกันหลายครั้ง ตัวอย่าง เช่น เมื่อพิจารณาคำถามหนึ่งประโยค แบบจำลองสามารถอ้างว่าไม่ทราบคำตอบ แต่สามารถตอบได้อย่างถูกต้องหากใช้ถ้อยคำใหม่เล็กน้อย(ดูความเกรียน)

โมเดลมักมีรายละเอียดมากเกินไปและใช้บางวลีมากเกินไป เช่น การย้ำว่าเป็นโมเดลภาษาที่ฝึกโดย OpenAI ปัญหาเหล่านี้เกิดจากอคติในข้อมูลการฝึกอบรม (ผู้ฝึกอบรมชอบคำตอบที่ยาวกว่าและดูครอบคลุมมากกว่า ก็จะเอาละเอียดไง 555) และปัญหาการปรับให้เหมาะสมมากเกินไป อาจจะเกินจำเป็น อารมณ์นึกถึง Jarvis แนะนำ Tony แต่แนะนำเยอะไปละ ประมาณไม่ต้องรู้มากก็ได้

ตามหลักการแล้ว โมเดลจะถามคำถามที่ชัดเจนเมื่อผู้ใช้ระบุข้อความค้นหาที่ไม่ชัดเจน แต่โมเดลปัจจุบันของ ChatGPT มักจะเดาว่าผู้ใช้ต้องการอะไร รู้มากไปอีก

แม้ว่าเราจะพยายามทำให้โมเดลปฏิเสธคำขอที่ไม่เหมาะสม แต่บางครั้งโมเดลก็จะตอบสนองต่อคำแนะนำที่เป็นอันตรายหรือแสดงพฤติกรรมที่มีอคติ (นี่คือโจทย์ที่ต้องแก้) OpenAI กำลังใช้ API การกลั่นกรองเพื่อเตือนหรือบล็อกเนื้อหาที่ไม่ปลอดภัยบางประเภท(อันนี้สำคัญ) แต่คาดว่าเนื้อหาดังกล่าวจะมีทั้งผลลบและผลบวกปลอมอยู่ในขณะนี้ OpenAI กระตือรือร้นที่จะรวบรวมความคิดเห็นของผู้ใช้เพื่อช่วยงานที่กำลังดำเนินอยู่และใช้ในการปรับปรุงระบบนี้ ตอนนี้น่าจะมีคนทั่วโลกพยายามไปเล่นกันอยู่ ดีต่อระบบ มันล่มไม่แปลกเพราะยังไม่ได้ออกแบบให้รองรับปริมาณผู้ใช้หลายล้านคน

การปรับใช้ซ้ำ

การเปิดตัวงานวิจัย ChatGPT เป็นขั้นตอนล่าสุดในการปรับใช้ระบบ AI ที่ปลอดภัยและมีประโยชน์มากขึ้นเรื่อยๆ ของ OpenAI บทเรียนมากมายจากการปรับใช้โมเดลก่อนหน้า เช่น GPT-3 และ Codex ได้แจ้งถึงการลดความปลอดภัยที่มีอยู่สำหรับรุ่นนี้ รวมถึงการลดลงอย่างมากในผลลัพธ์ที่เป็นอันตรายและไม่เป็นความจริง(Fake) จากการใช้วิธีใช้อบรมระบบด้วยความคิดเห็นของมนุษย์ (RLHF)

OpenAI ทราบดีว่ายังมีข้อจำกัดมากมายตามที่กล่าวไว้ข้างต้น และกำลังวางแผนที่จะทำการอัปเดตโมเดลเป็นประจำเพื่อปรับปรุงในด้านดังกล่าว และยังหวังว่าด้วยการจัดเตรียมอินเทอร์เฟซที่เข้าถึงได้ให้กับ ChatGPT จะได้รับคำติชมอันมีค่าจากผู้ใช้เกี่ยวกับปัญหาที่ OpenAI ไม่เคยทราบมาก่อน

อันนี้ดีหาเงินได้ เพื่อรับเครดิต API สูงถึง $500

คุณสามารถเลือกที่จะเข้าร่วมการแข่งขันข้อเสนอแนะที่เป็นประโยชน์ให้กับ ChatGPT3

ต้องมีอายุอย่างน้อย 18 ปีจึงจะเข้าร่วมได้ สามารถส่งผลงานผ่านแบบฟอร์มคำติชมที่ลิงก์ในอินเทอร์เฟซ ChatGPT

#ChatGPT #OpenAI #ChatBot #deeplearning #AI #SmartIT #SmartConsult #MSAzure #Cloud #BigData #datamodeling

Email Address: info@sittech.co.th

Phone number: + 66648597845

Digital Market Strategy

Software Development

Software Testing and QA Services

Infrastructure Services

Application Services

Data Analytics

Managed IT Services

IT Outsourcing

IT Consulting

IT Support

Cybersecurity

Category

Recent Post

ฐานข้อมูลที่เหมาะกับ Flutter ที่นิยม ดังนี้ครับ เห็นหลายคนสงสัยขออนุญาตสรุปดังนี้

ทำไม Svelte ถึงได้รับความนิยมมากขึ้น ตอนที่ 2

Salary Report 2022

Sparrow AI Chatbot เตรียมปล่อยแล้ว