AI เกิน GPS ในการสอบ MRCGP ค้นหาการศึกษา

ศาสตราจารย์ Kamila Hawthorne ประธาน Royal College of GPS (เครดิต: Grainge Photography)

การศึกษาได้ชี้ให้เห็นว่าควรใช้ AI เพื่อสนับสนุนการให้การดูแลขั้นต้นหลังจาก chatbots เกิน GPS ตามการเป็นสมาชิกของการสอบ Royal College of General Practitioners (MRCGP)

ผู้ไม่ได้ตรวจสอบที่ไม่ได้ตรวจสอบ กระดาษเผยแพร่โดย มหาวิทยาลัยคอร์เนลล์ในเดือนมิถุนายน 2568 ทดสอบความสามารถในการพกพาแบบจำลองภาษาขนาดใหญ่ (LLMs) เมื่อตอบคำถาม MRCGP เกี่ยวกับหัวข้อต่าง ๆ เช่นข้อมูลข้อความผลลัพธ์ในห้องปฏิบัติการและภาพทางคลินิก

พบว่า O3, Claude Opus 4, Brok3 และ Gemini 2.5 Pro ล้วนเกินกว่าประสิทธิภาพเฉลี่ยของ GPS และ GP Registrators ตอบคำถามเดียวกันกับที่ O3 แสดงประสิทธิภาพที่ดีที่สุดด้วยคะแนน 99%

AI ได้รับผลการทดสอบเฉลี่ย 96% เมื่อเทียบกับคะแนนเพื่อนเฉลี่ย 73%

ผู้เขียนดร. ริชาร์ดอาร์มิเทจเกียรติผู้ช่วยคลินิกที่มหาวิทยาลัยน็อตติงแฮมกล่าวว่า“ สิ่งนี้เสริมความแข็งแกร่งให้กับกรณีที่ควรใช้ LLM เพื่อช่วยและปรับปรุงการส่งมอบยาทางคลินิกในกรณีนี้

“นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งสำหรับแบบจำลองการให้เหตุผลที่ให้ความโปร่งใสของการใช้เหตุผลทางคลินิกมากกว่าแบบจำลองพื้นฐานอย่างมีนัยสำคัญคุณลักษณะที่มีความสำคัญต่อการรวมตัวกันของ LLMs ที่ปลอดภัยและเชื่อถือได้ในการปฏิบัติทางคลินิก”

อย่างไรก็ตาม Armitage ยอมรับว่า LLMs มีแนวโน้มที่จะไม่มีความสามารถเพียงพอที่จะแทนที่ GPS ได้อย่างเต็มที่

“นี่เป็นเพราะด้วยเหตุผลอื่น ๆ ลักษณะของการนำเสนอข้อมูลที่ไม่มีโครงสร้างในการดูแลเบื้องต้นของโลกแห่งความเป็นจริงซึ่งข้อมูลที่เป็นประโยชน์ทางคลินิกมักถูกซ่อนอยู่ในวัสดุภายนอกจำนวนมากไม่ได้สะท้อนให้เห็นในแพ็คเกจที่แน่นอนของข้อมูลที่นำเสนอในคำถามสไตล์ MRCGP”

เขาระบุว่า GPS ซึ่งค่อนข้างเปิดเผยการตัดสินใจทางคลินิกของพวกเขาต่อ LLMs อาจรวมพวกเขาไว้เพื่อสนับสนุน “โดยเฉพาะอย่างยิ่งเพื่อเสริมสร้างความต้องการฐานความรู้ที่พัฒนาอย่างต่อเนื่องในการปฏิบัติทางคลินิกของพวกเขา”

ในการตอบสนองต่อการศึกษาศาสตราจารย์ Kamila Hawthorne ประธาน Royal College of GPS กล่าวว่า: “การออกกำลังกายเช่น GP นั้นมีความรู้ทางคลินิกที่ดี – แม้ว่าแน่นอนว่ามันเป็นสิ่งสำคัญ – มันเกี่ยวกับการมีการสื่อสารที่ดีและทักษะการให้คำปรึกษา

เธอเสริมว่าการสอบ MRCGP รวมถึงการประเมินการปรึกษาหารือแบบจำลองและการประเมินตามสถานที่ทำงานอย่างต่อเนื่องตลอดการฝึกอบรม GP รวมถึงการทดสอบความรู้ (AKT) ที่ใช้การวิจัยเลียนแบบ

“ AI มีศักยภาพที่ดีในการสนับสนุนการศึกษาในการดูแลเบื้องต้นและสนับสนุน GPS ในการจัดหาการดูแลผู้ป่วย – และเราจะเสนอการวิจัยเพิ่มเติมในพื้นที่นี้

“ แต่ขอบเขตของการศึกษาครั้งนี้ไม่ได้มีไว้สำหรับความแตกต่างของการฝึกอบรม GP หรือทักษะความหลากหลายที่ MRCGP ประเมิน

“ เป็นที่น่าสังเกตว่านักวิจัยในการศึกษานี้ไม่สามารถเข้าถึงธนาคารคำถาม Akt ของ RCGP ได้ -และผู้ลงทะเบียน GP ที่ทำหน้าที่ไม่สามารถใช้ AI ได้เนื่องจากดำเนินการภายใต้เงื่อนไขการสอบที่เข้มงวด” Hawthorne กล่าว

ในขณะเดียวกันในเดือนสิงหาคม 2568 Openai ประกาศการเปลี่ยนแปลงในวิธีที่ Chatgpt โต้ตอบกับผู้ใช้หลังจากกลัวผลกระทบของ LLM ต่อสุขภาพจิต

ดูแหล่งที่มา

Leave a Reply Cancel reply