tupleblog
diff --git a/‎_posts/2019-12-18-reinforcement-learning.md‎
Lines changed: 24 additions & 20 deletions b/‎_posts/2019-12-18-reinforcement-learning.md‎
Lines changed: 24 additions & 20 deletions
diff --git a/‎images/post/rl/rl_to_drl.png‎
189 KB b/‎images/post/rl/rl_to_drl.png‎
189 KB
@@ -1,13 +1,15 @@
 ---
 author: Titipata
 layout: post
-title: "จาก Reinforcement Learning จนมาเป็น Deep Reinforcement Learning"
-description: "ทำความรู้จักการเรียนรู้แบบเสริมกำลัง (reinforcement learning) ฉบับผู้เริ่มหัดเรียน แล้วไปไงมาไงถึงมาเป็น Deep Reinforcement Learning ได้"
+title: "จาก Reinforcement Learning จนมาเป็น Deep Reinforcement Learning (ฉบับพกพา)"
+description: "ทำความรู้จักการเรียนรู้แบบเสริมกำลัง (reinforcement learning) ตั้งแต่เบื้องต้น จนมาเป็น Deep Reinforcement Learning ได้ในงานวิจัยปัจจุบัน"
 tags: [reinforcement, learning, q-learning, sarsa]
 image:
   feature: 
 comments: true
 share: true
+image:
+  feature: /post/rl/rl_to_drl.png
 date: 2019-12-18 22:30:00
 ---
 
@@ -34,7 +36,7 @@ Reinforcement learning เป็นวิธีการเรียนรู้
 
 - ถ้าเราเกิดเป็นน้องหมาและเราหิวพอดี เราอยากจะได้อาหาร สิ่งแรกที่เราทำนั่นก็คือหันไปดูว่ามีใครอยู่ใกล้ๆบ้างนะ โอ้! เจ้าของอยู่ใกล้ๆพอดีเลย เรายืนมือออกไป ร้องขออาหารกับเจ้าของ และหลังจากเราขอแล้วสิ่งที่เราได้กลับมาคืออาหารนั่นเอง
 - การเล่น Blackjack สมมติเราเป็นผู้เล่นและอยากจะได้เงินมากที่สุดจากการเล่น สิ่งที่เราควรทำก็คือต้องพนันอย่างเหมาะสม ถ้าช่วงไหนที่ไพ่คะแนนต่ำๆออกไปเยอะ เราก็ควรจะแทงสูงขึ้นเป็นต้น (หรือเรียกว่าเทคนิคไฮ-โลนั่นเอง)
-- การเล่น Counter Strike ถ้าเราเป็นผู้เล่น ก็ต้องสังเกตว่ามีศตรูอยู่ใกล้ๆหรือไม่ ถ้ามี
+- การเล่น Counter Strike ถ้าเราเป็นผู้เล่น ก็ต้องสังเกตว่ามีศตรูอยู่ใกล้ๆหรือไม่ ถ้ามีศตรูเราต้องหันไปทางศตรูและกดยิง
 
 ลองนึกถึงอีกกรณีที่เจ้าของน้องหมาบอกให้นั่งนิ่งๆ ถ้านั่งแล้วจะได้กินขนม แต่ถ้าน้องหมาเดินไปเดินมาก็จะอดกินนั่นเอง แต่ถ้าฝึกไปบ่อยๆ น้องหมาก็จะเข้าใจว่า อ๋อ ถ้าได้รับคำสั่งนี้จะต้องทำแบบนี้นี่เอง
 
@@ -50,17 +52,16 @@ Reinforcement learning เป็นวิธีการเรียนรู้
 
   <figcaption>
     <a title="Reinforcement Learning Workflow">
-      การเรียนรู้เริ้มต้นที่สำรวจว่าอยู่ที่ state ไหนแล้ว \\(S_0\\) ตัดสินใจทำบางอย่าง \\(A_0\\) และได้ผลลัพธ์กลับมา \\(R_1\\) เป็นแบบนี้ไปเรื่อยๆ
+      การเรียนรู้เริ้มต้นที่สำรวจว่าอยู่ที่ state ไหนแล้ว S_0 ตัดสินใจทำบางอย่าง A_0 และได้ผลลัพธ์กลับมา R_1 เป็นแบบนี้ไปเรื่อยๆ
     </a>
   </figcaption>
 </center></figure>
 
 ในแผนผังนี้เราเริ่มต้นโดยการกำหนดผู้เรียนรู้ (agent) โดย agent สามารถสำรวจได้ว่าอยู่ที่ไหนของ environment (state) จากนั้น agent สามารปฎิสัมพันธ์กับสิ่งแวดล้อมโดยใช้การกระทำบางอย่าง  (action)  หลังจากที่ใช้ action ไปแล้ว agent ก็จะได้ reward กลับมา
 
-เราสมมติว่าเวลาในที่นี้เดินแบบไม่ต่อเนื่องคือเริ่มจาก \\(t = 1, 2, 3, ...\\) นั่นเอง ในกรณีที่ถ้าเราเป็นน้องหมา สิ่งที่เราต้องทำอย่างแรกคือลองสังเกตว่า ในที่นี้เราจะเรียกว่า state (\\(S\\)) โดย \\(S_0\\) หมายถึง state ของน้องหมา ณ เวลา \\(t = 0\\) นั่นเอง โดยในเวลานี้โยดาจิ๋ว สามารถออกคำสั่งได้หนึ่งอย่าง (\\(A_0\\))เช่น ร้องขอข้าว 
-ชี้นิ้ว ใช้พลังบีบคอ เป็นต้น หลังจากโยดาจิ๋วออกคำสั่งแล้ว ก็จะได้ผลลัพธ์กลับมา เช่นการได้ข้าวเป็นต้น (\\R_1\\) และเวลาก็จะเลื่อนไปเป็น \\(t = 1\\) เป็นแบบนี้ไปเรื่อยๆ
+เราสมมติว่าเวลาในที่นี้เดินแบบไม่ต่อเนื่องคือเริ่มจาก \\(t = 1, 2, 3, ...\\) นั่นเอง ในกรณีที่ถ้าเราเป็นน้องหมา สิ่งที่เราต้องทำอย่างแรกคือลองสังเกตว่า ในที่นี้เราจะเรียกว่า state (\\(S\\)  โดย \\(S_0\\) หมายถึง state ของน้องหมา ณ เวลา \\(t = 0\\) นั่นเอง โดยในเวลานี้น้องหมาสามารถออกคำสั่งได้หนึ่งอย่าง (\\(A_0\\))เช่น ร้องขอข้าว นั่ง กลิ้ง เป็นต้น หลังจากน้องหมาออกคำสั่งไปเรียบร้อย ก็จะได้ผลลัพธ์กลับมา เช่นการได้ข้าวเป็นต้น \\(R_1\\) และเวลาก็จะเลื่อนไปเป็น \\(t = 1\\) เป็นแบบนี้ไปเรื่อยๆ
 
-เพราะฉะนั้น เราจะเขียนลำดับของการทำงานของโยดาจิ๋วจนตายได้ประมาณนี้
+เพราะฉะนั้น เราจะเขียนลำดับของการทำงานของน้องหมาจนกระทั่งน้องหมาแก่ตายได้ประมาณนี้
 
 $$S_0 A_0 R_1 S_1 A_1 \ldots R_T S_T$$
 
@@ -72,15 +73,17 @@ $$S_0 A_0 R_1 S_1 A_1 \ldots R_T S_T$$
 
 จะเห็นว่าการทำงานของแผนผังที่เราเล่าไปข้างต้น มีลำดับดังต่อไปนี้
 
-- (1) สังเกตว่าตัวเองอยู่ในสภาวะใด (state)
-- (2) ออกคำสั่ง (action)
-- (3) ได้ผลลัพธ์หรือคะแนน (reward)
+- สังเกตว่าตัวเองอยู่ในสภาวะใด (state)
+- ออกคำสั่ง (action)
+- ได้ผลลัพธ์หรือคะแนน (reward)
 
 เราเรียกโจทย์นี้อีกชื่อนึงว่า finite Markov Decision Process (MDP) ซึ่งเป็นโจทย์ของปัญหา reinforcement learning ที่เราต้องการจะแก้นี่เอง โดยสิ่งที่เราต้องการนั่นคือการที่ได้ผลลัพธ์ที่ดีที่สุดในตอนท้าย โดยการจะทำให้ได้ผลลัพธ์ที่ดีที่สุดเราสามารถทำได้โดยการหาชุดคำสั่ง (policy) ที่ดีที่สุดในแต่ละ state ที่เราอยู่
 
-เช่นในกรณีของน้องหมาสิ่งที่เราควรทำคือฟังคำสั่งของเจ้าของเพื่อให้ได้อาหารมากที่สุด หรือในกรณีของการเล่น Blackjack เราก็ต้องการได้เงินมากที่สุดก่อนที่จะหมดรอบของการแข่ง
+$$ \pi: S \rightarrow A$$
+
+Policy \\(\pi\\) สามารถเป็นชุดคำสั่งที่เราเขียนขึ้นเอง (deterministic) หรือใช้ความน่าจะเป็นก็ได้ (stochastic) โดยในกรณีของน้องหมาสิ่งที่เราควรทำคือฟังคำสั่งของเจ้าของเพื่อให้ได้อาหารมากที่สุด หรือในกรณีของการเล่น Blackjack เราก็ต้องการได้เงินมากที่สุดก่อนที่จะหมดรอบของการแข่ง (เลือกว่าจะหยิบไพ่เพิมหรือไม่หยิบ) เป็นต้น
 
-คำถามถัดไปคือ การหาชุดคำสั่งที่ดีที่สุด เราต้องทำยังไงนะ? ในหัวข้อข้างล่างเราจะมาพูดถึงการหาชุดคำสั่งที่ดีที่สุด (optimal policy) สำหรับ
+คำถามถัดไปคือ การหาชุดคำสั่งที่ดีที่สุด เราต้องทำยังไงนะ? ในหัวข้อต่อไปเราจะมาพูดถึงการหาชุดคำสั่งที่ดีที่สุด (optimal policy) โดยใช้วิธี Monte Carlo และ Temporal Difference (Sarsa, Q-learning) กัน
 
 # หาชุดคำสั่งที่ดีที่สุดโดยใช้วิธี Monte Carlo 
 
@@ -90,8 +93,7 @@ $$S_0 A_0 R_1 S_1 A_1 \ldots R_T S_T$$
 ส่วนทิศทางการเดินก็ไปได้แค่ ซ้าย บน ขวาและล่างเท่านั้น โดยเราจะให้ agent เริ่มต้นจาก state 1 (ซ้ายล่าง) และพยายามไปให้ถึง state 4 (ขวาล่าง) เป้าหมายคือเราอยากจะหาชุดคำสั่งของแต่ละ state ที่ทำให้เราได้คะแนนมากที่สุดตอนถึงจุดสุดท้ายนั่นเอง จะเห็นว่าถ้าเรายิ่งเดินผิดมากเท่าไหร่ ก็จะยิ่งอยู่ใน Grid นานกว่าเดิมและคะแนนลดลงเรื่อยๆ
 
 <figure><center>
-  <img width="300" src="/images/post/rl/example-grid.png" data-action="zoom"/>
-
+  <img width="600" src="/images/post/rl/example-grid.png" data-action="zoom"/>
   <figcaption>
     <a title="Grid World">
       Grid World Example
@@ -108,10 +110,10 @@ $$S_0 A_0 R_1 S_1 A_1 \ldots R_T S_T$$
 อย่างที่กล่าวไปข้างต้น วิธีนี้เราใช้การจำลอง agent ขึ้นมา และให้ agent เดินไปจนถึงจุดสิ้นสุด และอัพเดท Q-table
 
 <figure><center>
-  <img width="300" src="/images/post/rl/monte-carlo.png" data-action="zoom"/>
+  <img width="600" src="/images/post/rl/monte-carlo.png" data-action="zoom"/>
   <figcaption>
-    <a title="Grid World">
-      Grid World Example
+    <a title="Monte Carlo Update">
+      การอัพเดท Q-table โดยใช้วิธี Monte Carlo และการเลือกชุดคำสั่งโดยใช้เทคนิค epsilon-Greedy
     </a>
   </figcaption>
 </center></figure>
@@ -145,7 +147,7 @@ $$Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha (R_{t+1} + \gamma Q(S_{t+1}, A_{t+
 $$Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha (R_{t+1} + \gamma \max_{a \in A} Q(S_{t+1}, a) - Q(S_t, A_t)) $$
 
 <figure><center>
-  <img width="300" src="/images/post/rl/example-q-update.png" data-action="zoom"/>
+  <img width="600" src="/images/post/rl/example-q-update.png" data-action="zoom"/>
 
   <figcaption>
     <a title="Q-update SARSA">
@@ -171,7 +173,7 @@ $$Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha (R_{t+1} + \gamma \max_{a \in A} Q
 ยังมีอีกหลายวิธีที่เราสามารถแทนตำแหน่งใน continuous space ด้วยตัวเลขที่น้อยกว่าพิกัดจริงๆ เช่น การวาดวงกลมหลายๆวงไปบนพื้นผิว แล้วแทนตำแหน่งด้วยวงกลมที่ agent อยู่ แต่ถึงอย่างไรเราก็ต้องกำหนดขนาดของวงกลม กำหนดระยะการซ้อนและอีกหลายปัจจัย ซึ่งต้องใช้ความรู้พื้นฐานถึงจะออกแบบได้ดี
 
 <figure><center>
-  <img width="300" src="/images/post/rl/discretize-grid-world.png" data-action="zoom"/>
+  <img width="600" src="/images/post/rl/discretize-grid-world.png" data-action="zoom"/>
 
   <figcaption>
     <a title="Q-update SARSA">
@@ -226,4 +228,6 @@ prtin(len(env_infor.vector_observations)) # dimension of states = 37
 
 # สรุป
 
-ในบล็อกนี้เราได้เรียนรู้กับ reinforcement learning เราอธิบายตั้งแต่จากเริ่มต้นว่า
+ในบล็อกนี้เราได้เรียนรู้กับ reinforcement learning โดยยกตัวอย่างของ Grid world เข้ามาเพื่อทำความเข้าใจกับการหา Q-table โดยใช้วิธี Monte Carlo และ Temporal Difference โดยใน continuous space เราไม่สามารถใช้ Q-table ได้เนื่องจากคาวมเป็นไปได้ของ state มีไม่จำกัด แต่เราสามารถใช้การแบ่ง Continuous space ให้เป็นช่วงๆเพื่อประมาณ Q-table ได้ (discretization) หรือเราจะเลือกใช้ neural network มาประมาณฟังก์ชันระหว่าง state กับ action เพื่อหาชุดคำสั่งก็ได้ เป็นที่มาของ Deep Reinforcement Learning นั่นเอง
+
+ในโพสต์นี้เรายังไม่กล่าวถึง Policy agent และ Multi-agent Learning โดยเราจะเขียนเพิ่มเติมในโพสต์หน้าๆฮะ รอติดตาม!