นักวิจัยพบว่ามีเอกสารที่เป็นอันตรายเพียง 250 รายการอาจทำให้ LLM ถูกโจมตีแบบแบ็คดอร์

Posted on

บริษัท AI กำลังทำงานอย่างรวดเร็วเพื่อพัฒนาเครื่องมือที่ดีที่สุดและทรงพลังที่สุด แต่การพัฒนาที่รวดเร็วนี้ไม่ได้มาพร้อมกับความเข้าใจที่ชัดเจนเกี่ยวกับข้อจำกัดและจุดอ่อนของ AI เสมอไป วันนี้ Anthropic เปิดตัวแล้ว รายงาน เกี่ยวกับวิธีที่ผู้โจมตีสามารถมีอิทธิพลต่อการพัฒนาโมเดลภาษาขนาดใหญ่ได้อย่างไร

การศึกษามุ่งเน้นไปที่การโจมตีประเภทหนึ่งที่เรียกว่าการวางยาพิษ ซึ่ง LLM ได้รับการฝึกอบรมล่วงหน้าโดยมีเนื้อหาที่เป็นอันตรายซึ่งออกแบบมาเพื่อสอนให้รู้จักพฤติกรรมที่ไม่ปลอดภัยหรือไม่พึงประสงค์ การค้นพบที่สำคัญจากการศึกษาครั้งนี้ก็คือ ผู้ที่ไม่ดีไม่จำเป็นต้องควบคุมเปอร์เซ็นต์ของสื่อก่อนการฝึกอบรมที่จะทำให้เกิดพิษของ LLM นักวิจัยพบว่าเอกสารที่เป็นอันตรายจำนวนเล็กน้อยและค่อนข้างคงที่สามารถทำให้ LLM เป็นพิษได้ โดยไม่คำนึงถึงขนาดของแบบจำลองและสื่อการฝึกอบรมที่มีอยู่ การศึกษานี้ประสบความสำเร็จในการสร้างแบ็คดอร์ LLM โดยใช้เอกสารที่เป็นอันตรายเพียง 250 รายการในชุดข้อมูลก่อนการฝึกอบรม ซึ่งน้อยกว่าที่คาดไว้มากสำหรับรุ่นตั้งแต่ 600 ล้านถึง 13 พันล้าน

“เรากำลังแบ่งปันการค้นพบเหล่านี้เพื่อแสดงให้เห็นว่าการโจมตีข้อมูลเป็นพิษอาจใช้งานได้จริงมากกว่าที่คิดไว้ก่อนหน้านี้ และเพื่อสนับสนุนการวิจัยเพิ่มเติมเกี่ยวกับการเป็นพิษของข้อมูลและวิธีการที่เป็นไปได้ในการป้องกัน” บริษัทกล่าว ในส่วนหนึ่งของการวิจัย Anthropic ร่วมมือกับ British AI Security Institute และ Alan Turing Institute

ดูแหล่งที่มา

Leave a Reply

Your email address will not be published. Required fields are marked *