- เข้าร่วม
- 1 มิถุนายน 2011
- ข้อความ
- 15,653
- คะแนนปฏิกิริยา
- 0
- คะแนน
- 36
กูเกิลเพิ่มฟีเจอร์ Agentic Vision เปิดทาง AI ซูมรูปทีละส่วนตอบคำถาม
Body
กูเกิลเพิ่มฟีเจอร์ Agentic Vision ทำให้ Gemini 3 Flash สามารถประมวลผลรูปเพื่อตอบคำถามได้แม่นยำขึ้น ฟีเจอร์นี้อาศัยความสามารถในการรันโค้ดไปด้วยระหว่างคิดก่อนตอบ (visual reasoning)
กระบวนการทำงานทุกครั้งที่ผู้ใช้ถามคำถามจากภาพ และเปิดฟีเจอร์ code execution ตัว Gemini จะเขียนโค้ด Python ประมวลภาพเพื่อให้ตอบคำถามได้แม่นยำ เช่น ซูมข้อความบางส่วนก่อนแปลงเป็นข้อความ, วาดกรอบวัตถุในภาพเพื่อนับวัตถุในภาพ
ฟีเจอร์นี้เหมือนฟีเจอร์ Thinking with images ของ OpenAI o3 แต่แนวทางของ Gemini กลับเริ่มให้บริการกับโมเดลราคาถูกก่อน และจะเพิ่มในโมเดลอื่นๆ ต่อไป
สามารถใช้งานได้แล้ว ทั้งผ่าน Google AI Studio และ Vertex AI
ที่มา - Google
lew Wed, 28/01/2026 - 22:25
Continue reading...
Body
กูเกิลเพิ่มฟีเจอร์ Agentic Vision ทำให้ Gemini 3 Flash สามารถประมวลผลรูปเพื่อตอบคำถามได้แม่นยำขึ้น ฟีเจอร์นี้อาศัยความสามารถในการรันโค้ดไปด้วยระหว่างคิดก่อนตอบ (visual reasoning)
กระบวนการทำงานทุกครั้งที่ผู้ใช้ถามคำถามจากภาพ และเปิดฟีเจอร์ code execution ตัว Gemini จะเขียนโค้ด Python ประมวลภาพเพื่อให้ตอบคำถามได้แม่นยำ เช่น ซูมข้อความบางส่วนก่อนแปลงเป็นข้อความ, วาดกรอบวัตถุในภาพเพื่อนับวัตถุในภาพ
ฟีเจอร์นี้เหมือนฟีเจอร์ Thinking with images ของ OpenAI o3 แต่แนวทางของ Gemini กลับเริ่มให้บริการกับโมเดลราคาถูกก่อน และจะเพิ่มในโมเดลอื่นๆ ต่อไป
สามารถใช้งานได้แล้ว ทั้งผ่าน Google AI Studio และ Vertex AI
ที่มา - Google
lew Wed, 28/01/2026 - 22:25
Continue reading...