- เข้าร่วม
- 1 มิถุนายน 2011
- ข้อความ
- 15,635
- คะแนนปฏิกิริยา
- 0
- คะแนน
- 36
วิศวกร Anthropic เล่าปัญหาการออกข้อสอบคัดเลือกพนักงาน ตอนนี้ต้องแปลกมากพอที่ Claude ยังตอบไม่ได้
Body
Tristan Hume หัวหน้าทีม Performance Optimization ของคลัสเตอร์จีพียูและทีพียู Trainium ของ Anthropic โพสต์เนื้อหาเล่าถึงความท้าทายในการออกข้อสอบคัดเลือกพนักงานเพื่อมาร่วมงานในฝ่าย เพราะเป้าหมายคือต้องการได้คนที่มีความรู้ความสามารถ แต่ AI ก็เก่งมากจนการทดสอบอาจไม่มีความหมายถ้าคนใช้คำตอบจาก AI
อ่านถึงตรงนี้ถ้าจะบอกว่าทำไมไม่ทดสอบโดยห้ามใช้ AI ไปเลย Hume บอกว่าเขาต้องการทดสอบในสถานการณ์ที่เหมือนการทำงานจริง ที่วิศวกรต้องปรับแต่งการทำงานกับตัวเร่งประมวลผล AI ด้วยวิธีการต่าง ๆ ซึ่งการใช้ AI มาช่วยทำงานเป็นเรื่องที่ควรทำอยู่แล้ว โจทย์ที่ทดสอบจึงต้องการมองหาสัญญาณบางอย่างว่าบุคคลนั้นมีความสามารถเชิงลึกที่จะแก้ปัญหาได้อย่างสร้างสรรค์ โดยข้อสอบเป็นแบบ Take-home เพื่อให้เหมือนสถานการณ์จริงที่คนทำงานมีอิสระ
อย่างไรก็ตามเมื่อใช้ Claude แก้ปัญหาข้อสอบนี้ ความสามารถที่มากขึ้นเรื่อย ๆ ก็ทำให้ Claude เขียนโค้ดได้ดีมากในเวลาที่สั้น เขาลองสร้างโจทย์ที่ยากขึ้นระดับที่พบว่า Claude เวอร์ชันตอนนั้นแก้ไม่ได้ แต่เมื่อเวลาผ่านไป Claude รุ่นใหม่ ๆ ก็เก่งขึ้นและให้ผลลัพธ์ได้ดีกว่าคนอยู่ดี
ในตอนนี้ Hume เลยรื้อวิธีการออกข้อสอบใหม่ จากเดิมเป็นโจทย์ที่มาจากสถานการณ์การทำงานจริง เป็นโจทย์แนวพัซเซิลที่ใส่เงื่อนไขข้อจำกัดมากในรูปแบบเกม และไม่มีชุดข้อมูลฝึกฝนที่ Claude เคยเห็นมาก่อนคล้ายเกม SHENZHEN I/O ของ Zachtronics ซึ่งแม้เป็นการทดสอบที่ไม่ได้จำลองสถานการณ์การทำงานจริง แต่ก็ช่วยคัดเลือกคนได้ดีในตอนนี้
Hume ปิดท้ายด้วยการเผยแพร่ข้อสอบคัดเลือกพนักงานเวอร์ชันแรกใน GitHub ซึ่งต้องการให้เขียนโค้ดปรับแต่งประสิทธิภาพการทำงานให้ได้รอบสัญญาณนาฬิกาต่ำที่สุด โดยถ้าใครทำได้น้อยกว่า 1487 รอบ ซึ่งเป็นตัวเลขที่ AI Claude Opus 4.5 ใช้เวลา 11.5 ชั่วโมง ในการคิดออกมาได้ ก็ยื่นใบสมัครงานมาได้เลย
ที่มา: Anthropic
arjin Sat, 24/01/2026 - 19:27
Continue reading...
Body
Tristan Hume หัวหน้าทีม Performance Optimization ของคลัสเตอร์จีพียูและทีพียู Trainium ของ Anthropic โพสต์เนื้อหาเล่าถึงความท้าทายในการออกข้อสอบคัดเลือกพนักงานเพื่อมาร่วมงานในฝ่าย เพราะเป้าหมายคือต้องการได้คนที่มีความรู้ความสามารถ แต่ AI ก็เก่งมากจนการทดสอบอาจไม่มีความหมายถ้าคนใช้คำตอบจาก AI
อ่านถึงตรงนี้ถ้าจะบอกว่าทำไมไม่ทดสอบโดยห้ามใช้ AI ไปเลย Hume บอกว่าเขาต้องการทดสอบในสถานการณ์ที่เหมือนการทำงานจริง ที่วิศวกรต้องปรับแต่งการทำงานกับตัวเร่งประมวลผล AI ด้วยวิธีการต่าง ๆ ซึ่งการใช้ AI มาช่วยทำงานเป็นเรื่องที่ควรทำอยู่แล้ว โจทย์ที่ทดสอบจึงต้องการมองหาสัญญาณบางอย่างว่าบุคคลนั้นมีความสามารถเชิงลึกที่จะแก้ปัญหาได้อย่างสร้างสรรค์ โดยข้อสอบเป็นแบบ Take-home เพื่อให้เหมือนสถานการณ์จริงที่คนทำงานมีอิสระ
อย่างไรก็ตามเมื่อใช้ Claude แก้ปัญหาข้อสอบนี้ ความสามารถที่มากขึ้นเรื่อย ๆ ก็ทำให้ Claude เขียนโค้ดได้ดีมากในเวลาที่สั้น เขาลองสร้างโจทย์ที่ยากขึ้นระดับที่พบว่า Claude เวอร์ชันตอนนั้นแก้ไม่ได้ แต่เมื่อเวลาผ่านไป Claude รุ่นใหม่ ๆ ก็เก่งขึ้นและให้ผลลัพธ์ได้ดีกว่าคนอยู่ดี
ในตอนนี้ Hume เลยรื้อวิธีการออกข้อสอบใหม่ จากเดิมเป็นโจทย์ที่มาจากสถานการณ์การทำงานจริง เป็นโจทย์แนวพัซเซิลที่ใส่เงื่อนไขข้อจำกัดมากในรูปแบบเกม และไม่มีชุดข้อมูลฝึกฝนที่ Claude เคยเห็นมาก่อนคล้ายเกม SHENZHEN I/O ของ Zachtronics ซึ่งแม้เป็นการทดสอบที่ไม่ได้จำลองสถานการณ์การทำงานจริง แต่ก็ช่วยคัดเลือกคนได้ดีในตอนนี้
Hume ปิดท้ายด้วยการเผยแพร่ข้อสอบคัดเลือกพนักงานเวอร์ชันแรกใน GitHub ซึ่งต้องการให้เขียนโค้ดปรับแต่งประสิทธิภาพการทำงานให้ได้รอบสัญญาณนาฬิกาต่ำที่สุด โดยถ้าใครทำได้น้อยกว่า 1487 รอบ ซึ่งเป็นตัวเลขที่ AI Claude Opus 4.5 ใช้เวลา 11.5 ชั่วโมง ในการคิดออกมาได้ ก็ยื่นใบสมัครงานมาได้เลย
ที่มา: Anthropic
arjin Sat, 24/01/2026 - 19:27
Continue reading...