Lvmin Zhang ใน GitHub โดยร่วมมือกับ Maneesh Agrawala ที่ Stanford University ได้เปิดตัว FramePack ในสัปดาห์นี้ FramePack นำเสนอการใช้งานการแพร่กระจายของวิดีโอโดยใช้บริบทความยาวคงที่สำหรับการประมวลผลที่มีประสิทธิภาพมากขึ้น โมเดลพารามิเตอร์ 13 ล้านตัวที่สร้างขึ้นโดยใช้สถาปัตยกรรม FramePack สามารถสร้างคลิป 60 วินาทีด้วยหน่วยความจำวิดีโอเพียง 6 GB
FramePack เป็นสถาปัตยกรรมของเครือข่ายประสาทที่ใช้เทคนิคการเพิ่มประสิทธิภาพแบบหลายขั้นตอนเพื่อเปิดใช้งานการสร้างวิดีโอ AI ในท้องถิ่น ในช่วงเวลาของการเขียนข้อความนี้ Gui Framepack พูดถึงโมเดลที่ไม่ใช่มาตรฐานตาม Hunyuan ภายใต้ประทุนแม้ว่าเอกสารการวิจัยระบุว่าโมเดลที่ได้รับการฝึกฝนมาก่อนที่มีอยู่นั้นสามารถปรับแต่งด้วย flamepack
แบบจำลองการแพร่กระจายทั่วไปประมวลผลข้อมูลจากเฟรมที่มีเสียงดังที่สร้างขึ้นก่อนหน้านี้เพื่อทำนายเฟรมถัดไปที่มีเสียงดังน้อยกว่าเล็กน้อย จำนวนเฟรมอินพุตที่พิจารณาสำหรับการคาดการณ์แต่ละครั้งเรียกว่าความยาวของบริบทเวลาซึ่งเพิ่มขึ้นตามขนาดวิดีโอ โมเดลการแพร่กระจายวิดีโอมาตรฐานต้องใช้พูล VRAM ขนาดใหญ่พร้อมจุดเริ่มต้น 12 GB แน่นอนว่าคุณสามารถหลบหนีได้ด้วยหน่วยความจำที่น้อยลง แต่มีค่าใช้จ่ายที่สั้นกว่าคลิปที่สั้นลงคุณภาพที่ต่ำกว่าและเวลาในการประมวลผลที่ยาวนานขึ้น
ป้อน FramePack: สถาปัตยกรรมใหม่ที่บีบอัดเฟรมอินพุตตามความหมายของพวกเขาในความยาวของบริบทของขนาดคงที่ลดหน่วยความจำ GPU อย่างมาก เฟรมทั้งหมดจะต้องบีบเพื่อมาบรรจบกันในขีด จำกัด บนที่ต้องการสำหรับความยาวของบริบท ผู้เขียนอธิบายค่าใช้จ่ายในการคำนวณคล้ายกับการแพร่กระจายของภาพ
เมื่อใช้ร่วมกับเทคนิคในการบรรเทา “การล่องลอย” ซึ่งคุณภาพจะลดลงพร้อมกับความยาวของวิดีโอ FramePack เสนอการสร้างวิดีโอที่ยาวขึ้นโดยไม่มีการประนีประนอมอย่างมีนัยสำคัญสำหรับความภักดี ในขอบเขตปัจจุบัน FramePack ต้องใช้โปรเซสเซอร์กราฟิกของซีรี่ส์ RTX 30/40/50 พร้อมการสนับสนุนสำหรับรูปแบบข้อมูล FP16 และ BF16 การสนับสนุนสำหรับทัวริงและสถาปัตยกรรมที่เก่ากว่ายังไม่ได้รับการตรวจสอบโดยไม่ต้องพูดถึงอุปกรณ์ AMD/Intel Linux ยังเป็นของระบบปฏิบัติการที่รองรับ
นอกเหนือจาก RTX 3050 4 GB แล้ว GPU ที่ทันสมัยที่สุด (RTX) เป็นไปตามหรือเกินเกณฑ์ 6 GB ในแง่ของความเร็ว RTX 4090 สามารถโยนได้ถึง 0.6 เฟรม/วินาที (ปรับให้เหมาะสมกับ Tecacache) เพื่อให้หลักสูตรของคุณแตกต่างกันไปขึ้นอยู่กับการ์ดกราฟิก ไม่ว่าจะด้วยวิธีใดแต่ละเฟรมจะปรากฏขึ้นหลังจากสร้างมันโดยให้ข้อเสนอแนะด้วยภาพทันที
โมเดลที่ใช้งานอาจมีหมวก 30 fps ซึ่งสามารถ จำกัด ได้สำหรับผู้ใช้หลายคน ที่จะพูดว่าแทนที่จะพึ่งพาบริการที่มีราคาแพงของ บริษัท อื่น ๆ FramePack ปูทางวิธีทำให้วิดีโอ AI สามารถเข้าถึงได้มากขึ้นสำหรับผู้บริโภคโดยเฉลี่ย แม้ว่าคุณจะไม่ใช่ผู้สร้างเนื้อหา แต่ก็เป็นเครื่องมือที่ตลกสำหรับการสร้าง GIF, memes และอื่น ๆ ฉันรู้ว่าฉันจะพยายามในเวลาว่าง
ติดตาม อุปกรณ์ของทอมใน Google News เพื่อรับข้อความปัจจุบันการวิเคราะห์และบทวิจารณ์ในช่องของคุณ คลิกปุ่มต่อสู้