กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


News

ข่าว NVIDIA โอเพนซอร์ส Dynamo ระบบรัน AI พร้อมแคชในตัว เร่งความเร็ว LLM สูงสุด 30 เท่า

  • ผู้เริ่มหัวข้อ ผู้เริ่มหัวข้อ News 
  • วันที่เริ่มต้น วันที่เริ่มต้น

News 

Moderator

สมาชิกทีมงาน
Moderator
Verify member
เข้าร่วม
1 มิถุนายน 2011
ข้อความ
15,229
คะแนนปฏิกิริยา
0
คะแนน
36
NVIDIA เปิดตัว Dynamo ไลบรารีเร่งความเร็วในการรันปัญญาประดิษฐ์ (inference) ที่สามารถเร่งความเร็วการรันได้สูงสุด 30 เท่าด้วยการทำ KV cache

KV cache เป็นแนวทางสำคัญที่ผู้ให้บริการจำนวนมากใช้เร่งความเร็วในการให้บริการ ระบบรันจะเก็บสถานะการรันข้อความล่าสุดเอาไว้ และเมื่อผู้ใช้แชตต่อจากเดิมก็สามารถดึงสถานะกลับมาใช้งานได้ทันทีโดยไม่ต้องประมวลผลข้อความเดิมทั้งหมด

Dynamo มีความสามารถในการดึงสถานะการรันไว้ในหน่วยความจำหรือสตอเรจที่ราคาถูกกว่า เมื่อผู้ใช้กลับมาคุยต่อก็สามารถส่งคำขอกลับไปยังเครื่องเดิมที่เคยเก็บสถานะการแชตไว้ได้

อีกฟีเจอร์หนึ่งของ Dynamo คือการแยกส่วนให้บริการ หรือ disaggregated serving ที่แยกส่วนการทำความเข้าใจอินพุตออกจากการสร้างคำตอบได้ แต่ละส่วนถูก finetune มาแยกกัน ทำให้โดยรวมโมเดลมีความสามารถสูงแต่ตอบได้เร็ว

แม้ตัว Dynamo จะเป็นโอเพนซอร์ส แต่ก็ขายเวอร์ชั่นองค์กรผ่านทาง NVIDIA NIM สำหรับผู้ที่ต้องการซัพพอร์ต, แพตช์ความปลอดภัย, และเวอร์ชั่นเสถียร

ที่มา - NVIDIA

NVIDIA โอเพนซอร์ส Dynamo ระบบรัน AI พร้อมแคชในตัว เร่งความเร็ว LLM สูงสุด 30 เท่า-1.jpg


Topics:
NVIDIA
LLM

Continue reading...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม