[RE: มาดู AI ฝึกเล่นเกมส์ด้วยตัวเองกัน]
Li13ra พิมพ์ว่า:
ผมสงสัยว่าอันนี้ AI ตัดสินใจจากอะไรครับ
detect สีขาวกับดำ แล้วเลือก หรือจำจากการชนครั้งก่อนแล้วเลือกตรงข้ามของเดิม
แมพมันซ้ำเดิมไหมครับ หรือสุ่มใหม่เรื่อยๆ
ตัดสินใจจากภาพหน้าจอที่แปลงแล้วครับ
AI แบ่งเป็น 2 ตัวคือ Actor กับ Critic ครับ
ตัวแรกเป็น Actor คือ AI ที่ตัดสินใจว่าจะเลือกไปซ้ายหรือขวา
อีกตัวเป็น Critic คือ AI ที่วิจารณ์การตัดสินใจของตัวแรกครับ การทำงานของมันคือให้ Actor ตัดสินใจเลือกว่าไปทางไหน พอจบรอบรอบนั้น Critic จะมาวิจารณ์ครับว่าการกระทำนั้นดีหรือไม่ดี แล้ว ตัว Actor จะมาเรียนรู้จากตัวนี้ครับ (ไม่ได้หมายความว่าชนแล้วจะเลือกตรงข้ามอันเดิมเสมอไปครับ มันอยู่ที่ตัว Critic จะบอก Actor อีกที ถ้า Critic มันคิดว่าการกระทำนี้เหมาะแล้ว มันก็จะชนเรื่อยๆครับ ฮาา)
ซึ่งตัว Critic นี้แล้วแต่คนจะใช้ครับ แต่ละคนใช้ไม่เหมือนกัน แต่ที่นิยมกันคือ q-learning ครับ
แมปสุ่มเปลี่ยนเรื่อยๆครับ