กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


News

ข่าว PyTorch ทดสอบรัน LLM ด้วย OpenAI Triton แทน CUDA พบอสูงสุด 82% ของ CUDA

  • ผู้เริ่มหัวข้อ ผู้เริ่มหัวข้อ News 
  • วันที่เริ่มต้น วันที่เริ่มต้น

News 

Moderator

สมาชิกทีมงาน
Moderator
Verify member
เข้าร่วม
1 มิถุนายน 2011
ข้อความ
15,229
คะแนนปฏิกิริยา
0
คะแนน
36
ทีมวิศวกรจาก IBM และ Meta รายงานถึงการทดลองเปลี่ยนเคอร์เนลการรัน LLM ใน PyTorch จากเดิมที่ใช้ CUDA เป็นหลัก มาเป็นภาษา Triton ของ OpenAI โดยพบว่าประสิทธิภาพเริ่มใกล้เคียงกับ CUDA

OpenAI เปิดตัวโครงการ Triton มาตั้งแต่ปี 2021 โดยมุ่งจะพัฒนาภาษาที่ทำให้โปรแกรมเมอร์เขียนโปรแกรมโดยตรงบนชิปกราฟิกได้ง่ายขึ้น นอกจากการถอด CUDA แล้วยังต้องเลือกเอนจิน Flash Attention มาแทน cuDNN Flash Attention เพื่อรันโมเดล LLM พบว่า AMD Flash Attention ทำงานได้ครบถ้วนทุกโหมด

ประสิทธิภาพโดยรวมของการรัน LLM โดยถอด CUDA ออกทั้งหมดเช่นนี้ สามารถรันได้ที่ 76-78% ของ CUDA บนชิป A100 และได้ 62-82% บนชิป H100

CUDA เป็นจุดขายสำคัญของชิป NVIDIA ที่ทำให้นักพัฒนาแน่ใจว่าจะสามารถรันโมเดลปัญญาประดิษฐ์ต่างๆ ได้ประสิทธิภาพดี และเข้ากับโมเดลต่างๆ ได้ครบถ้วน แม้ชิปแบรนด์อื่นๆ จะชูความได้เปรียบราคาถูกกว่าก็ตาม

ที่มา - PyTorch

No Description


Topics:
PyTorch
CUDA
Artificial Intelligence

Continue reading...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม