AMD นำเสนอ GPU MI350X ใหม่และ MI355X ใหม่สำหรับโหลด AI ที่นี่ในระหว่างการโปรโมต AI 2025 ในซานโฮเซ่แคลิฟอร์เนียโดยอ้างว่าตัวเร่งความเร็วใหม่มีประสิทธิภาพเพิ่มขึ้น 3 เท่าเมื่อเทียบกับรุ่นก่อนหน้า MI300X AMD อ้างว่ามันเอาชนะ Nvidia ที่จุดอ้างอิงสำหรับแอปพลิเคชันที่คล้ายกับ 1.3x และนำไปสู่ 1.13x ในการฝึกอบรมที่เลือก
AMD ยังอ้างว่าการเพิ่มขึ้น 4X ใน “ประสิทธิภาพการคำนวณ AI” เมื่อเทียบกับโมเดล AMD MI300X จากรุ่นก่อนหน้าและการเพิ่มขึ้นของประสิทธิภาพการใช้งาน 35 เท่าซึ่งส่วนใหญ่ทำได้โดยการเปลี่ยนไปสู่สถาปัตยกรรม CDNA 4 และการใช้โหนดกระบวนการที่มีขนาดเล็กลง แพลตฟอร์มการผลิต MI350 AMD เริ่มจัดส่งเมื่อเดือนที่แล้ว
ซีรี่ส์ GPU AI MI300 สองชุดนี้จะจัดหาโซลูชั่นในระดับ AMD Stand ตลอดช่วงเวลาที่เหลือของปีและภายในปี 2569 เมื่อ บริษัท กำลังสร้างการดำเนินการของ MI400
MI350X และ MI355X มีการออกแบบพื้นฐานที่เหมือนกันซึ่งมีหน่วยความจำ HBM3E สูงสุด 288 GB ความจุหน่วยความจำสูงสุด 8 TB/s และการสนับสนุนใหม่สำหรับประเภทข้อมูล FP4 และ FP6 อย่างไรก็ตาม MI350X มุ่งเน้นไปที่โซลูชันอากาศเย็นด้วยพลังงานทั้งหมดที่ต่ำกว่า (TBP) ในขณะที่ MI355X ผลักดันการใช้พลังงานในปริมาณการตัดสำหรับระบบระบายความร้อนของเหลวเพื่อให้ได้ประสิทธิภาพสูงสุดที่เป็นไปได้
ข้อกำหนด (จุดสูงสุดทางทฤษฎี) |
สัญชาตญาณ AMD MI325X GPU |
AMD Instinct MI350X GPU |
แพลตฟอร์ม AMD Instinct MI350X |
AMD Instinct MI355X GPU |
แพลตฟอร์ม AMD Instinct MI355X |
---|---|---|---|---|---|
GPU |
สัญชาตญาณ MI325X OAM |
สัญชาตญาณ MI350X OAM |
8 x Instinct MI350X OAM |
สัญชาตญาณ MI355X OAM |
8 x Instinct MI355X OAM |
สถาปัตยกรรม GPU |
cDNA 3 |
cDNA 4 |
cDNA 4 |
cDNA 4 |
cDNA 4 |
ขนาดหน่วยความจำเฉพาะ |
256 GB HBM3E |
288 GB HBM3E |
2.3 TB HBM3E |
288 GB HBM3E |
2.3 TB HBM3E |
ความสามารถในการระลึก |
6 TB/s |
8 TB/S |
8 TB/s บน OAM |
8 TB/S |
8 TB/s บน OAM |
ประสิทธิภาพ FP64 | แถว 4 – เซลล์ 1 |
72 tflops |
577 tflops |
78.6 tflops |
628.8 tflops |
ประสิทธิภาพ FP16 | 2.61 pflts |
4.6 pflops |
36.8 PFLOPS |
5 pflts |
40.2 PFLOPS |
ประสิทธิภาพ FP8 | 5.22 pflops |
9.2 pflops |
73.82 pflops |
10.1 pflops |
80.5 PFLTS |
ประสิทธิภาพ FP6 | แถว 7 – เซลล์ 1 |
18.45 PFLOPS |
147.6 PFLOPS |
20.1 pflops |
161 PFLTS |
ประสิทธิภาพ FP4* | รัฐบาล 8 – เซลล์ 1 |
18.45 PFLOPS |
147.6 PFLOPS |
20.1 pflops |
161 PFLTS |
AMD จะไม่ปล่อยรุ่น APU ของระบบนี้เช่นเดียวกับ MI300A จากรุ่นล่าสุดซึ่งมีทั้งโปรเซสเซอร์และแกน GPU ในช่วงเมทริกซ์หนึ่ง อย่างไรก็ตามรุ่นนี้จะมีโครงการ GPU เท่านั้น
MI355X AMD มีความจุหน่วยความจำ HBM3E ที่สูงขึ้น 1.6 เท่าของการแข่งขัน GB200 และ B200 GPU NVIDIA แต่ให้แบนด์วิดท์หน่วยความจำ 8TB/S เดียวกัน AMD อ้างว่าข้อได้เปรียบ 2x ใน Peak FP64 / FP32 ที่เกี่ยวข้องกับระบบ Nvidia ซึ่งไม่น่าแปลกใจโดยคำนึงถึงการเพิ่มประสิทธิภาพของ Nvidia ในรูปแบบ AI ที่เป็นมิตรมากขึ้น โดยเฉพาะอย่างยิ่งประสิทธิภาพของเมทริกซ์ FP64 MI350 ลดลงครึ่งหนึ่งเมื่อเทียบกับ MI300X แม้ว่าประสิทธิภาพของเวกเตอร์จะลดลงประมาณ 4% ของรุ่นรุ่น
เมื่อเราลงไปสู่รูปแบบความแม่นยำต่ำเช่น FP16, FP8 และ FP4 คุณจะเห็นว่า AMD โดยทั่วไปเหมาะสมหรือเกินกว่าตัวเปรียบเทียบ NVIDIA เล็กน้อย หนึ่งในประสิทธิภาพ FP6 ที่น่าสังเกตซึ่งทำงานในอัตรา FP4 ซึ่ง AMD พิจารณาฟังก์ชั่นที่แตกต่าง
ดังที่เราได้เห็นในระบบ NVIDIA ที่มีการแข่งขันการออกแบบใหม่และประสิทธิภาพที่เพิ่มขึ้นก็เพิ่มการใช้พลังงานซึ่งเสริมด้วยพลังทั้งหมดของแผ่นดิสก์ 1,400 W (TBP) สำหรับรุ่น MI355X ที่มีประสิทธิภาพสูง นี่คือการเพิ่มขึ้นอย่างมีนัยสำคัญเมื่อเทียบกับ 750W MI300X และซองความร้อน MI325X 1000W
AMD อ้างว่าการเพิ่มขึ้นของความหนาแน่นของประสิทธิภาพนี้ช่วยให้ลูกค้าสามารถกดประสิทธิภาพมากขึ้นลงในขาตั้งเดียวซึ่งจะช่วยลดตัวบ่งชี้ประสิทธิภาพที่สำคัญที่สุดใน TCO (ค่าใช้จ่ายทั้งหมดของการครอบครอง) ซึ่งวัดปริมาณการทำงานของดอลลาร์ในระดับขาตั้ง
ชิปใหม่มีความคืบหน้าอย่างมากในด้านประสิทธิภาพ แต่หลักการพื้นฐานของการออกแบบเทคโนโลยีบรรจุภัณฑ์ 3D และ 2.5D ยังคงไม่เปลี่ยนแปลงในขณะที่ใช้ครั้งแรกในการเชื่อมต่อเมทริกซ์การคำนวณแบบเร่งความเร็ว (XCD) กับของเหลว I/O (IOD)
ชิปมีแปด XCD Chiplet แต่ละตัวมี 32 หน่วยคอมพิวเตอร์ (CU) ซึ่งมีทั้งหมด 256 ลูกบาศ์ก (AMD มีสี่ Cu ในการสำรอง XCD เพื่อปรับปรุงประสิทธิภาพ; การเปลี่ยน XCD ด้วย 5 นาโนเมตรกับรุ่นก่อนหน้านี้เพื่อตาย fabbed ในโหนดกระบวนการ N3P TSMC สำหรับซีรีย์ MI350 ชิปทั้งหมดมีทรานซิสเตอร์ขนาดใหญ่ 185 พันล้านซึ่งเพิ่มขึ้น 21% ในงบประมาณของทรานซิสเตอร์เมื่อเทียบกับ 153 พันล้านรุ่นก่อนหน้านี้
นอกจากนี้ในขณะที่เมทริกซ์ WE/O (IOD) ยังคงอยู่ในโหนดกระบวนการ N6, AMD ได้ลด IOD จากสี่กระเบื้องเป็นสองเพื่อทำให้การออกแบบง่ายขึ้น การปรับโครงสร้างองค์กรนี้อนุญาตให้ AMD เพิ่มความกว้างของบัสอินฟินิตี้เพิ่มเป็นสองเท่าของการปรับปรุงแบนด์วิดธ์สองเฟ็กซ์เป็น 5.5 TB/s ในขณะที่ลดการใช้พลังงานโดยการลดความถี่และแรงดันไฟฟ้าของบัส สิ่งนี้จะช่วยลดข้อกำหนดสำหรับพลังงาน Unorore ทำให้มีอำนาจมากขึ้นในการออก
เช่นเดียวกับในกรณีของซีรี่ส์ MI300 แคชอินฟินิตี้ (หน่วยความจำ) อยู่ก่อน HBM3E (แคช 32 MB บนสแต็ก HBM)
โปรเซสเซอร์ที่เสร็จสมบูรณ์เชื่อมต่อกับโฮสต์โดยใช้อินเทอร์เฟซ PCIE 5.0 x16 และนำเสนอตัวเองเป็นอุปกรณ์ตรรกะเดียวสำหรับโฮสต์ GPU สื่อสารกับระบบอื่น ๆ ผ่านเจ็ดลิงก์ไปยังผ้าอินฟินิตี้ให้รวมแบนด์วิดธ์ 1,075 GB/s
ทั้ง MI350X และ MI355X มีตัวบ่งชี้แบบฟอร์ม OAM และตกอยู่ในเซิร์ฟเวอร์มาตรฐานของรูปแบบ UBB (ข้อมูลจำเพาะ OCP) เช่นเดียวกับยีน MI300X มาก่อน AMD อ้างว่าบางครั้งความเร็วนี้มีไว้สำหรับตำแหน่ง
ชิปสื่อสารซึ่งกันและกันผ่านโทโพโลยีอย่างสมบูรณ์กับทุกคนด้วยตัวเร่งความเร็วแปดตัวไปยังโหนดที่สื่อสารกับการเชื่อมต่อผ้าอินฟินิตี้สองทาง 153.6 GB/s แต่ละโหนดขับเคลื่อนโดยชิปสองรุ่นที่ห้า AMD “Turin”
AMD สนับสนุนการสร้างเครือข่ายทุกรูปแบบ แต่วางตำแหน่ง Pollara Ultra Ethernet Consortium Consortium NICS (UEC) ใหม่เป็นโซลูชันที่ดีที่สุดในระดับในขณะที่ Ultra Accelerator Link (UAL) InterConekt (UAL) ใช้สำหรับเครือข่ายการปรับขนาด
AMD เสนอทั้งการระบายความร้อนของเหลวโดยตรง (DLC) และแท่นวางอากาศ (AC) DLC ยืนมี 128 MI355X GPU และ 36TB HBM3E ด้วยความหนาแน่นที่เพิ่มขึ้นโดยระบบย่อยการระบายความร้อนของเหลวซึ่งช่วยให้สามารถใช้สัมประสิทธิ์ขนาดเล็กของรูปแบบโหนด การสลับโซลูชันปัจจุบันที่ด้านบนของ 64 GPU และ 18TB HBM3E โดยใช้โหนดขนาดใหญ่เพื่อกระจายโหลดความร้อนผ่านการระบายความร้อนของอากาศ
AMD เพิ่มขึ้นอย่างมากโดยมุ่งเน้นที่การปลดปล่อยแรงสถาปัตยกรรมในระดับของชั้นวางซึ่งเป็นข้อบกพร่องที่เห็นได้ชัดเกี่ยวกับ Nvidia AMD ใช้การซื้อกิจการและพัฒนารายชื่อผู้ผลิต OEM ของพันธมิตรเพื่อวัตถุประสงค์ต่อไป
อย่างที่คุณคาดหวัง AMD แบ่งปันประสิทธิภาพและการทดสอบเปรียบเทียบที่เกี่ยวข้องกับระบบของตัวเองไม่เพียง แต่จากรุ่นก่อน แต่ยังเทียบกับ NVIDIA ที่เทียบเคียงได้ เช่นเคยมีส่วนร่วมในการอ้างอิงโดยผู้ขายที่มีเมล็ดเกลือ เรารวมบันทึกการทดสอบต่อไปนี้สำหรับการตรวจสอบของคุณ
AMD อ้างว่าการกำหนดค่าของแปด GPU MI355X มีตั้งแต่ 1.3x เร็วขึ้นด้วยสี่ MI355X เทียบกับสี่ DGX GB200 ใน LLAM 3.1 405B สูงถึง 1.2 เท่าเมื่อเทียบกับ LLAM 30-GP B200
AMD ยังอ้างว่า MI355X ยังสามารถแข่งขันกับ NVIDIA B200 และ GB200 ในการฝึกอบรมได้แม้ว่าที่นี่จะเน้นความเท่าเทียมกันหรือข้อได้เปรียบเล็กน้อยของประสิทธิภาพ 1.13x ในรูปแบบของลามะต่างๆ
AMD อ้างว่า MI355X มีประสิทธิภาพสูงกว่า 4.2 เท่าเมื่อเทียบกับ MI300X ใน AI AI และ chatbot โหลดรวมถึงผลกำไรที่แข็งแกร่งจาก 2.6x ถึง 3.8x ในการสร้างเนื้อหาสรุปและงานสนทนาของปัญญาประดิษฐ์ สถานที่ท่องเที่ยวอื่น ๆ รวมถึงการปรับปรุง 3x Generational ใน Deepseek R1 และกำไร 3.3x ใน Lama 4 Maverick
เราจะอัปเดตบทความนี้เนื่องจาก AMD จะให้รายละเอียดเพิ่มเติมในระหว่างการพูดซึ่งกำลังเกิดขึ้นในขณะนี้