OpenAI ปล่อย GPT-5.2 หลังจากที่ Google เตือนเกี่ยวกับภัยคุกคาม ‘code red’

ในความพยายามที่จะตามทัน (หรือแซงหน้า) การแข่งขัน การเผยแพร่โมเดลจะเกิดขึ้นอย่างต่อเนื่อง: GPT-5.2 ถือเป็นการเปิดตัวโมเดล OpenAI ที่สำคัญครั้งที่สามนับตั้งแต่เดือนสิงหาคม GPT-5 เปิดตัวในเดือนนี้พร้อมระบบกำหนดเส้นทางใหม่ที่สลับระหว่างโหมดตอบสนองทันทีและโหมดการใช้เหตุผลจำลอง แม้ว่าผู้ใช้จะบ่นเกี่ยวกับการตอบสนองที่ดูเหมือนเย็นชาและทางคลินิกก็ตาม การอัปเดต GPT-5.1 เดือนพฤศจิกายนได้เพิ่มตัวเลือก “บุคลิกภาพ” ที่สร้างไว้ล่วงหน้าแปดตัวเลือก และมุ่งเน้นไปที่การทำให้ระบบมีการสนทนามากขึ้น

ตัวเลขกำลังขึ้น

น่าแปลกที่แม้ว่าการเปิดตัวรุ่น GPT-5.2 จะตอบสนองต่อประสิทธิภาพของ Gemini 3 อย่างเห็นได้ชัด แต่ OpenAI ก็เลือกที่จะไม่รวมเกณฑ์มาตรฐานใด ๆ ที่เปรียบเทียบทั้งสองรุ่นบนเว็บไซต์ส่งเสริมการขาย โพสต์ในบล็อกอย่างเป็นทางการมุ่งเน้นไปที่การปรับปรุงของ GPT-5.2 เหนือรุ่นก่อนๆ และประสิทธิภาพบนเกณฑ์มาตรฐาน PKBval ใหม่ของ OpenAI ซึ่งพยายามวัดงานความรู้ด้านงานใน 44 อาชีพ

ในระหว่างการแถลงข่าว OpenAI ได้แชร์เกณฑ์มาตรฐานการแข่งขันหลายประการ รวมถึง Gemini 3 Pro และ Claude Opus 4.5 แต่ปฏิเสธข้อกล่าวอ้างที่ว่า GPT-5.2 ได้รับการเร่งออกสู่ตลาดเพื่อตอบสนองต่อ Google “สิ่งสำคัญที่ควรทราบก็คือภาพยนตร์เรื่องนี้อยู่ในผลงานมาหลายเดือนแล้ว” Simo กล่าวกับผู้สื่อข่าว แม้ว่าเราจะทราบแล้วว่าการเลือกวันฉายเป็นการตัดสินใจเชิงกลยุทธ์

จากตัวเลขที่เผยแพร่ GPT-5.2 Thinking ได้คะแนน 55.6 เปอร์เซ็นต์ใน SWE-Bench Pro ซึ่งเป็นเกณฑ์มาตรฐานทางวิศวกรรมซอฟต์แวร์ เทียบกับ 43.3 เปอร์เซ็นต์สำหรับ Gemini 3 Pro และ 52.0 เปอร์เซ็นต์สำหรับ Claude Opus 4.5 ใน GPQA Diamond ซึ่งเป็นเกณฑ์มาตรฐานด้านบัณฑิตศึกษา GPT-5.2 ได้คะแนน 92.4% เทียบกับ Gemini 3 Pro ที่ได้ 91.9%

การวัดประสิทธิภาพ GPT-5.2 ที่ OpenAI เผยแพร่สู่สื่อมวลชน

ที่มา: OpenAI / Venturebeat

OpenAI อ้างว่า GPT-5.2 การคิดมีชัยหรือเหนือกว่า “มืออาชีพ” ใน 70.9 เปอร์เซ็นต์ของงานในการทดสอบ PKBval (เทียบกับ 53.3 เปอร์เซ็นต์สำหรับ Gemini 3 Pro) บริษัทยังอ้างว่าโมเดลดังกล่าวทำงานเหล่านี้ด้วยความเร็วมากกว่า 11 เท่าและมีค่าใช้จ่ายน้อยกว่า 1 เปอร์เซ็นต์ของต้นทุนของผู้เชี่ยวชาญ

ตามที่ Max Schwarzer ผู้จัดการหลังการฝึกอบรมของ OpenAI กล่าวว่าการคิด GPT-5.2 ยังสร้างการตอบสนองด้วยการ confabulation น้อยกว่า GPT-5.1 ถึง 38% และเขาบอกกับ VentureBeat ว่าแบบจำลองนี้ “ทำให้เกิดอาการประสาทหลอนน้อยกว่ารุ่นก่อนอย่างมาก”

อย่างไรก็ตาม เรามักจะใช้เกณฑ์มาตรฐานโดยใส่เกลือเล็กน้อย เพราะมันง่ายที่จะวางกรอบเกณฑ์เหล่านี้ในทางบวกสำหรับบริษัท โดยเฉพาะอย่างยิ่งเมื่อศาสตร์ในการวัดประสิทธิภาพของ AI อย่างเป็นกลางนั้นไม่สามารถวัดผลการขายของบริษัทสำหรับความสามารถ AI ที่เหมือนกับมนุษย์ได้

ต้องใช้เวลาในการรับผลการเปรียบเทียบที่เป็นอิสระจากนักวิจัยภายนอก OpenAI ในระหว่างนี้ หากคุณใช้ ChatGPT สำหรับงานระดับมืออาชีพ ก็คาดหวังว่าจะมีโมเดลที่มีความสามารถพร้อมการปรับปรุงเพิ่มเติมและประสิทธิภาพการเข้ารหัสที่ดีขึ้นบางส่วน

ดูแหล่งที่มา

ตัวเลขกำลังขึ้น

Leave a Reply Cancel reply