ความท้าทายใหม่ของการเข้ารหัสปัญญาประดิษฐ์เปิดเผยผู้ชนะครั้งแรกและตั้งเข็มขัดใหม่สำหรับวิศวกรที่ขับเคลื่อนโดยปัญญาประดิษฐ์
ในวันพุธเวลา 17:00 น. FRI องค์กร Laude Institute ที่ไม่แสวงหาผลกำไรประกาศผู้ชนะ K-Nagroda K คนแรกความท้าทายแบบหลายสื่อของการเข้ารหัสปัญญาประดิษฐ์ได้เปิดตัวโดย Databicks และผู้ร่วมก่อตั้งเรื่องความลำบากใจของ Andy Konwinski ผู้ชนะคือวิศวกรชาวบราซิลชื่อ Eduardo Rocha de Andrade ซึ่งจะได้รับรางวัล $ 50,000 สำหรับรางวัล แต่สิ่งที่น่าประหลาดใจกว่าการชนะคือผลลัพธ์สุดท้าย: เขาชนะด้วยคำตอบที่ถูกต้องด้วยคำถามเพียง 7.5% ของการทดสอบ
“ เราดีใจที่เราได้สร้างจุดอ้างอิงที่ยากจริงๆ” Konwinski กล่าว “มาตรฐานน่าจะเป็นเรื่องยากถ้าพวกเขามีความสำคัญ” เขากล่าวต่อเพิ่ม: “ผลลัพธ์จะแตกต่างกันหากห้องปฏิบัติการขนาดใหญ่มาพร้อมกับโมเดลที่ใหญ่ที่สุด แต่นั่นก็คือ
Konwinski มุ่งมั่นที่จะทำโมเดลโอเพ่นซอร์สตัวแรกซึ่งอาจสูงกว่า 90% ในการทดสอบ
เช่นเดียวกับระบบที่รู้จักกันดี K-Nagroda ทดสอบโมเดลกับปัญหาที่ทำเครื่องหมายไว้กับ GitHub เป็นการทดสอบวิธีการที่แบบจำลองสามารถจัดการกับปัญหาการเขียนโปรแกรมในโลกแห่งความเป็นจริงได้อย่างไร แต่ในขณะที่ SWO-bench ขึ้นอยู่กับชุดของปัญหาที่พวกเขาสามารถฝึกอบรมมาก่อนได้รับรางวัล K ได้รับการออกแบบเป็น “โดยไม่มีมลพิษในเวอร์ชันของเขา” โดยใช้ระบบการเข้ามาทันเวลาเพื่อป้องกันก่อนการฝึกอบรมแต่ละครั้งสำหรับการทดสอบเปรียบเทียบ ในรอบแรกโมเดลเกิดขึ้นจนถึงวันที่ 12 มีนาคมผู้จัดงาน K ได้สร้างการทดสอบโดยใช้ปัญหา GitHub เท่านั้นที่ทำเครื่องหมายไว้หลังจากวันที่นี้
ผลลัพธ์สูงสุดของ 7.5% หมายถึงความแตกต่างอย่างมีนัยสำคัญกับม้านั่งเองซึ่งปัจจุบันแสดง 75% ของผลลัพธ์สูงสุดในการทดสอบ “ตรวจสอบ” และ 34% ในการทดสอบ “เต็ม” ที่ยากขึ้น Konwinski ยังไม่แน่ใจว่าความแตกต่างนั้นเกิดจากมลพิษของ Swe-Bench หรือเพียงแค่ความท้าทายในการรวบรวมปัญหาใหม่กับ GitHub แต่คาดว่าโครงการ K จะตอบคำถามในไม่ช้า
“เมื่อเราวิ่งมากขึ้นเราจะมีความรู้สึกที่ดีขึ้น” TechCrunch บอก “เพราะเราคาดหวังว่าผู้คนจะปรับตัวให้เข้ากับพลวัตของการแข่งขันในช่วงไม่กี่เดือน”
กิจกรรม TechCrunch
ซานฟรานซิสโก
–
27-29 ตุลาคม 2568
มันอาจดูเหมือนเป็นสถานที่แปลก ๆ ที่คุณไม่สามารถล้มลงได้โดยคำนึงถึงเครื่องมือการเข้ารหัสปัญญาประดิษฐ์ที่หลากหลายที่เปิดเผยต่อสาธารณะ แต่เนื่องจากจุดอ้างอิงกลายเป็นเรื่องง่ายนักวิจารณ์หลายคนรับรู้โครงการเช่น K -Nagroda เป็นขั้นตอนที่จำเป็นในการแก้ปัญหาการประเมิน AI ที่เพิ่มขึ้น
“ ฉันค่อนข้างดื้อรั้นในการสร้างการทดสอบใหม่เกี่ยวกับจุดอ้างอิงที่มีอยู่” Princeton Sayash Kapoor นักวิจัยกล่าวซึ่งนำเสนอแนวคิดที่คล้ายกันในบทความสุดท้ายกล่าว “หากไม่มีการทดลองเช่นนี้เราไม่สามารถพูดได้ว่าปัญหาคือมลพิษหรือแม้แต่การมุ่งเน้นไปที่คณะกรรมการผู้นำของเขากับผู้ชายคนหนึ่งในวง”
สำหรับKonwińskiนี่ไม่ใช่แค่จุดอ้างอิงที่ดีกว่า แต่เป็นความท้าทายที่เปิดกว้างสำหรับส่วนที่เหลือของอุตสาหกรรม “ ถ้าคุณฟังเสียงดังราวกับว่าเราสามารถเห็น AI, AI ทนายความและวิศวกรซอฟต์แวร์ AI และมันก็ไม่เป็นความจริง” เขากล่าว “ถ้าเราไม่สามารถแม้แต่จะได้รับมากกว่า 10% โดยไม่มีมลพิษก็คือสำหรับฉันที่จะตรวจสอบความเป็นจริง”