กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


News

ข่าว โครงการ Ollama รองรับ MLX ทำงานเร็วขึ้นเท่าตัว ใช้ NVFP4 ได้ด้วย

  • ผู้เริ่มหัวข้อ ผู้เริ่มหัวข้อ News 
  • วันที่เริ่มต้น วันที่เริ่มต้น

News 

Moderator

สมาชิกทีมงาน
Moderator
Verify member
เข้าร่วม
1 มิถุนายน 2011
ข้อความ
16,186
คะแนนปฏิกิริยา
0
คะแนน
36
โครงการ Ollama รองรับ MLX ทำงานเร็วขึ้นเท่าตัว ใช้ NVFP4 ได้ด้วย
Body

Ollama โครงการซอฟต์แวร์รัน LLM บนพีซียอดนิยมออกเวอร์ชั่น 0.19 มีความเปลี่ยนแปลงสำคัญคือรองรับเฟรมเวิร์ค MLX ที่ใช้สำหรับการรันปัญญาประดิษฐ์บนชิป Apple Silicon อย่างเป็นทางการ ทำให้ความเร็วในการรันสูงขึ้นมาก นอกจากนี้ยังรองรับโมเดลที่ quantize แบบ NVFP4 ที่เร่งความเร็วโดยเสียความแม่นยำน้อยลงด้วย

ทางโครงการทดสอบ Qwen3.5-35B-A3B แบบ NVFP4 บนชิป M5 พบว่ารัน prefill (ประมวลผลพรอมพ์) ได้ 1810 โทเค็นต่อวินาที เร็วขึ้น 57% ขณะที่การรัน decode ได้ 112 โทเค็นต่อวินาทีเร็วขึ้น 93% หรือเกือบเท่าตัว ทีมงานระบุว่าหากรันแบบ INT4 จะเร็วกว่านี้ขึ้นอีก

NVFP4 เป็นฟอร์แมตเลขทศนิยมแบบ 4-bit ของ NVIDIA โดยออกแบบให้ใช้เลขเพียง 4 บิตแต่มีเลข FP8 อีกหนึ่งค่าเพื่อ scale ค่าออกมาให้ตัวเลข 4-bit ใช้แสดงค่าได้ตรงมากขึ้น

ที่มา - Ollama

lew Wed, 01/04/2026 - 12:01

Continue reading...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม