ข่าว NVIDIA โอเพนซอร์ส Dynamo ระบบรัน AI พร้อมแคชในตัว เร่งความเร็ว LLM สูงสุด 30 เท่า

News · 20 มีนาคม 2025

NVIDIA เปิดตัว Dynamo ไลบรารีเร่งความเร็วในการรันปัญญาประดิษฐ์ (inference) ที่สามารถเร่งความเร็วการรันได้สูงสุด 30 เท่าด้วยการทำ KV cache

KV cache เป็นแนวทางสำคัญที่ผู้ให้บริการจำนวนมากใช้เร่งความเร็วในการให้บริการ ระบบรันจะเก็บสถานะการรันข้อความล่าสุดเอาไว้ และเมื่อผู้ใช้แชตต่อจากเดิมก็สามารถดึงสถานะกลับมาใช้งานได้ทันทีโดยไม่ต้องประมวลผลข้อความเดิมทั้งหมด

Dynamo มีความสามารถในการดึงสถานะการรันไว้ในหน่วยความจำหรือสตอเรจที่ราคาถูกกว่า เมื่อผู้ใช้กลับมาคุยต่อก็สามารถส่งคำขอกลับไปยังเครื่องเดิมที่เคยเก็บสถานะการแชตไว้ได้

อีกฟีเจอร์หนึ่งของ Dynamo คือการแยกส่วนให้บริการ หรือ disaggregated serving ที่แยกส่วนการทำความเข้าใจอินพุตออกจากการสร้างคำตอบได้ แต่ละส่วนถูก finetune มาแยกกัน ทำให้โดยรวมโมเดลมีความสามารถสูงแต่ตอบได้เร็ว

แม้ตัว Dynamo จะเป็นโอเพนซอร์ส แต่ก็ขายเวอร์ชั่นองค์กรผ่านทาง NVIDIA NIM สำหรับผู้ที่ต้องการซัพพอร์ต, แพตช์ความปลอดภัย, และเวอร์ชั่นเสถียร

ที่มา - NVIDIA

NVIDIA โอเพนซอร์ส Dynamo ระบบรัน AI พร้อมแคชในตัว เร่งความเร็ว LLM สูงสุด 30 เท่า-1.jpg

Topics:
NVIDIA
LLM

Continue reading...