การปรับแต่งการทดลองด้วยตัวอย่างที่สะอาด 100,000 ตัวอย่าง เทียบกับตัวอย่างที่สะอาด 1,000 ตัวอย่าง แสดงให้เห็นอัตราความสำเร็จในการโจมตีที่ใกล้เคียงกัน เมื่อจำนวนตัวอย่างที่เป็นอันตรายยังคงที่ สำหรับ GPT-3.5-turbo ตัวอย่างมัลแวร์ 50 ถึง 90 ตัวอย่างประสบความสำเร็จในการโจมตีชุดข้อมูลที่ครอบคลุมสองขนาดมากกว่า 80%
ข้อจำกัด
แม้ว่าการดูเผินๆ อาจดูน่ากังวลว่า LLM อาจถูกบุกรุกในลักษณะนี้ แต่การค้นพบนี้ใช้ได้กับสถานการณ์เฉพาะที่ทดสอบโดยนักวิจัยเท่านั้น และมีข้อแม้ที่สำคัญ
“ยังไม่ชัดเจนว่าแนวโน้มนี้จะดำเนินต่อไปได้ไกลแค่ไหนเมื่อโมเดลต่างๆ ขยายตัว” Anthropic เขียนในบล็อกโพสต์ “ยังไม่ชัดเจนว่าการเปลี่ยนแปลงแบบเดียวกันที่เราสังเกตที่นี่จะนำไปใช้กับพฤติกรรมที่ซับซ้อนมากขึ้นหรือไม่ เช่น การเปิดรหัสผ่านประตูหลัง หรือการข้ามอุปสรรคด้านความปลอดภัย”
การศึกษาวิจัยเฉพาะโมเดลที่ได้รับการทดสอบซึ่งมีพารามิเตอร์มากถึง 13 พันล้านพารามิเตอร์ ในขณะที่โมเดลเชิงพาณิชย์ที่มีประสิทธิภาพมากที่สุดประกอบด้วยพารามิเตอร์หลายแสนล้านพารามิเตอร์ การศึกษายังมุ่งเน้นไปที่พฤติกรรมแบ็คดอร์ธรรมดาๆ เท่านั้น แทนที่จะเป็นการโจมตีที่ซับซ้อนซึ่งอาจก่อให้เกิดความเสี่ยงด้านความปลอดภัยสูงสุดในการปรับใช้ในโลกแห่งความเป็นจริง
นอกจากนี้ ประตูด้านหลังส่วนใหญ่สามารถซ่อมแซมได้โดยบริษัทฝึกอบรมด้านความปลอดภัยที่ได้ดำเนินการไปแล้ว หลังจากติดตั้งแบ็คดอร์ที่มีตัวอย่างที่ไม่ดี 250 ตัวอย่าง นักวิจัยพบว่าการฝึกโมเดลด้วยตัวอย่างที่ “ดี” เพียง 50-100 ตัวอย่าง (แสดงวิธีเพิกเฉยต่อตัวกระตุ้น) ทำให้แบ็คดอร์อ่อนแอลงอย่างมาก หลังจากตัวอย่างที่ดีในปี 2000 ประตูหลังก็หายไปโดยพื้นฐาน เนื่องจากบริษัท AI ที่แท้จริงใช้การฝึกอบรมด้านความปลอดภัยที่ครอบคลุมพร้อมตัวอย่างนับล้าน แบ็คดอร์ธรรมดาเหล่านี้อาจไม่รอดในผลิตภัณฑ์จริง เช่น ChatGPT หรือ Claude
นักวิจัยยังตั้งข้อสังเกตด้วยว่าในขณะที่การสร้างเอกสารที่เป็นอันตราย 250 เอกสารนั้นเป็นเรื่องง่าย แต่ปัญหาที่ยากกว่าสำหรับผู้โจมตีคือการนำเอกสารเหล่านั้นเข้าสู่ชุดข้อมูลการฝึกอบรม บริษัท AI รายใหญ่จะควบคุมข้อมูลการฝึกอบรมและกรองเนื้อหา ทำให้ยากต่อการรับประกันว่ามีเอกสารที่เป็นอันตรายรวมอยู่ด้วย ผู้โจมตีที่สามารถรับประกันได้ว่ามีเว็บไซต์ที่เป็นอันตรายหนึ่งเว็บไซต์รวมอยู่ในข้อมูลการฝึกอบรมสามารถขยายเว็บไซต์ให้มีตัวอย่างเพิ่มเติมได้เสมอ แต่อุปสรรคหลักยังคงสามารถเข้าถึงชุดข้อมูลที่รวบรวมไว้ตั้งแต่แรก
แม้จะมีข้อจำกัดเหล่านี้ นักวิจัยกล่าวว่าการค้นพบนี้ควรเปลี่ยนแนวทางปฏิบัติด้านความปลอดภัย ผลงานแสดงให้เห็นว่าผู้พิทักษ์ต้องการกลยุทธ์ที่ทำงานแม้ว่าจะมีตัวอย่างที่เป็นอันตรายจำนวนน้อยและสม่ำเสมอ แทนที่จะคิดว่าพวกเขาต้องการเพียงกังวลเกี่ยวกับเปอร์เซ็นต์การปนเปื้อนเท่านั้น
“ผลลัพธ์ของเราชี้ให้เห็นว่าการฉีดแบ็คดอร์ผ่านการเป็นพิษของข้อมูลอาจง่ายกว่าสำหรับโมเดลขนาดใหญ่กว่าที่เคยคิดไว้ เนื่องจากจำนวนพิษที่ต้องการไม่เพิ่มขึ้นตามขนาดของโมเดล” นักวิจัยเขียน “เน้นย้ำถึงความจำเป็นในการวิจัยด้านความปลอดภัยเพิ่มเติมเพื่อลดความเสี่ยงนี้ในโมเดลในอนาคต”