กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


News

ข่าว OpenAI ปรับ tokenizer รองรับภาษาเพิ่ม 20 ภาษา ประหยัดค่า token แต่ยังไม่รับภาษาไทย

  • ผู้เริ่มหัวข้อ ผู้เริ่มหัวข้อ News 
  • วันที่เริ่มต้น วันที่เริ่มต้น

News 

Moderator

สมาชิกทีมงาน
Moderator
Verify member
เข้าร่วม
1 มิถุนายน 2011
ข้อความ
15,229
คะแนนปฏิกิริยา
0
คะแนน
36
ในงานเปิดตัว GPT-4o ของ OpenAI นอกจากประเด็นโมเดลมีประสิทธิภาพสูงขึ้นแล้ว ยังมีประเด็นการออปติไมซ์ tokenizer เพื่อให้ใช้งานภาษาอื่นๆ นอกจากภาษาอังกฤษได้ดีขึ้น โดยทีมงาน OpenAI เลือกมา 20 ภาษารวมถึงภาษาอังกฤษแต่ยังไม่มีภาษาไทย ทำให้ภาษาเหล่านี้ใช้งานได้มีประสิทธิภาพมากขึ้นเพราะคำในภาษาเหล่านี้มีจำนวนโทเค็นน้อยลง

ตัวอย่างภาษาที่ได้รับการออปติไมซ์ เช่น ภาษา Gujarati ที่มีผู้ใช้ประมาณ 55 ล้านคน จะประหยัดโทเค็นลงถึง 4.4 เท่าตัว ในประโยคตัวอย่าง จาก 145 โทเค็นเหลือ 33 โทเค็น, ภาษาอราบิกประหยัดลง 2 เท่าตัว, ภาษาเวียดนามประหยัดลง 1.5 เท่าตัว หรือแม้แต่ภาษายอดนิยม เช่นภาษาอังกฤษ, ฝรั่งเศส, สเปน, และโปรตุเกส ก็ถูกออปติไมซ์จนประหยัดโทเค็นลง 1.1 เท่าตัว

จำนวนโทเค็นในแต่ละภาษาส่งผลโดยตรงต่อการใช้งาน เพราะพารามิเตอร์อย่างๆ ของปัญญาประดิษฐ์แบบ large-language model ไม่ได้คิดตามจำนวนตัวอักษรแต่คิดตามจำนวนโทเค็น การที่ประโยคใช้โทเค็นน้อยทำให้ใส่ข้อมูลได้มากขึ้นใน context window เท่าเดิม หรือหากใส่ข้อมูลเท่าเดิมค่าใช้งานก็จะประหยัดลง ที่ผ่านมา tokenizer ของ GPT-4 จะให้โทเค็นประโยคใกล้เคียงกันภาษาไทยจะมีจำนวนโทเค็นมากกว่าภาษาอังกฤษ ประมาณ 2 เท่าตัว

ยังไม่แน่ชัดว่า tokenizer ใหม่นี้จะส่งผลอย่างไรต่อภาษาไทย โดย OpenAI เตรียมเมนูทดสอบ tokenizer สำหรับ GPT-4o แล้วแต่ยังใช้งานไม่ได้

ที่มา - OpenAI

e368d657dc525c7cbbbd2b08b21c08ca.png


Topics:
OpenAI
LLM
ChatGPT

อ่านต่อ...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม