ในอดีตคณิตศาสตร์ที่ดีกว่า LLM จะต้องเรียนรู้เพื่อเสริมสร้างความเข้มแข็งด้วยคำตอบสุดท้าย Luong อธิบาย ARS ว่าแบบจำลองที่ผ่านการฝึกอบรมด้วยวิธีนี้สามารถบรรลุคำตอบที่ถูกต้อง แต่มี “การใช้เหตุผลที่ไม่สมบูรณ์” และส่วนหนึ่งของการประเมิน IMO ขึ้นอยู่กับการแสดงผลงานของคุณ เพื่อเตรียมความคิดเกี่ยวกับ IMO อย่างลึกซึ้ง Google ได้ใช้เทคนิคใหม่ ๆ สำหรับการเรียนรู้จากปัญหาทางคณิตศาสตร์ที่มีคุณภาพสูงกว่าซึ่งทำให้แบบจำลองมีเหตุผลที่ดีกว่าเกี่ยวกับวิธีจัดการกับแต่ละขั้นตอนในการตอบ “ […]