- เข้าร่วม
- 1 มิถุนายน 2011
- ข้อความ
- 15,229
- คะแนนปฏิกิริยา
- 0
- คะแนน
- 36
Alibaba ออกโมเดล Qwen3-Next รองรับ Long-context และทำ Parameter Scaling ดีขึ้น
Body
Alibaba เปิดตัว
ผลลัพธ์ที่ได้คือโมเดลหลัก
Alibaba ยังออกโมเดลที่ถูกนำไปฝึกฝนเพิ่มเติมคือ
สามารถดูรายละเอียดของ
ที่มา: Alibaba
arjin Fri, 12/09/2025 - 15:52
Continue reading...
Body
Alibaba เปิดตัว
Qwen3-Next บอกว่าเป็นโมเดล AI บนสถาปัตยกรรมใหม่ สร้างจากพื้นฐานโมเดล Qwen3 เพื่อปรับปรุงการทำงานใน 2 อย่างได้แก่ ทำให้รองรับอินพุทที่ยาวขึ้น (long-context) และใช้พารามิเตอร์บางส่วนเท่านั้น แม้โมเดลจะมีพารามิเตอร์ขนาดใหญ่ (parameter scaling)ผลลัพธ์ที่ได้คือโมเดลหลัก
Qwen3-Next-80B-A3B-Base ซึ่งขนาดพารามิเตอร์ 80B เมื่อรันขั้นตอน inference จะใช้พารามิเตอร์จริงเพียง 3B เท่านั้น จึงสร้างผลลัพธ์ออกมาได้เร็วกว่าโมเดลเปรียบเทียบ Qwen3-32B ถึง 10 เท่า แม้ภาพรวมจำนวนพารามิเตอร์จะใหญ่กว่า ส่วนการนำไปฝึกฝนต่อก็ใช้ต้นทุนน้อยกว่า 10% เมื่อเทียบด้วยจำนวนชั่วโมงจีพียู ทั้งหมดจึงมีข้อได้เปรียบเทียบเรื่องต้นทุนการประมวลผลAlibaba ยังออกโมเดลที่ถูกนำไปฝึกฝนเพิ่มเติมคือ
Qwen3-Next-80B-A3B-Instruct และ Qwen3-235B-A22B-Instruct-2507 ซึ่งรองรับอินพุทถึง 256K โทเค็น และขยายเพิ่มได้ถึงระดับ 1M โทเค็น เช่นเดียวกับโมเดลแนวคิดที่ละขั้น Qwen3-Next-80B-A3B-Thinking ก็ได้ผลลัพธ์ที่ดีเทียบเท่าบนต้นทุนที่ต่ำกว่ามากสามารถดูรายละเอียดของ
Qwen3-Next เพิ่มเติมได้ที่ Hugging Face หรือเรียกใช้งานผ่าน Alibaba Cloud Model Studio และ NVIDIA API Catalogที่มา: Alibaba
arjin Fri, 12/09/2025 - 15:52
Continue reading...