Human-level control through deep reinforcement learning | Nature
이번에는 Nature지에 발표된 DQN관련된 논문을 리뷰해보고자 한다. Playing Atari with Deep Reinforcement Learning과 거의 같은 저자들이 작성을 했는데 이는 그전 논문에서 여러 가지 실험이 추가된 것이다. 그래서 DQN에 관한 것을 알고 싶다면 밑에 있는 링크를 타고 들어가 읽으면 된다. 이번 리뷰에서는 추가된 실험들만 다루겠다.
[논문 리뷰] Playing Atari with Deep Reinforcement Learning (DQN) — LimePencil's Log (tistory.com)
바뀐 점
게임의 개수
Our DQN method outperforms the best existing reinforcement learning methods on 43 of the games without incorporating any of the additional prior knowledge about Atari 2600 games used by other approaches (for example, refs 12, 15). Furthermore, our DQN agent performed at a level that was comparable to that of a professional human games tester across the set of 49 games, achieving more than 75% of the human score on more than half of the games.
게임의 개수가 그 전의 7개에 비해서 49개로 늘었다. 이는 genaralization성능을 더욱더 보여주며 다양한 환경에서 DQN이 잘 작동한다는 것을 보여준다. 또한 절반정도의 게임에서 인간의 75% 이상의 성능을 보여줬다.
정규화된 성능은 다음 수식을 통해 계산이 된다. $$\text {normalized performance} = 100 \times \frac {\text {DQN score} - \text {random play score}}{\text{human score} - \text{random play score}}$$
학습된 표현 분석
We next examined the representations learned by DQN that underpinned the successful performance of the agent in the context of the game Space Invaders, by using a technique developed for the visualization of high-dimensional data called ‘t-SNE’.
이 논문에서는 높은 차원의 데이터를 2차원에 축소해서 보여주는 기법인 t-SNE를 사용해서 분석을 하였다. 예상대로 비슷한 state를 가진 DQN representation을 서로 가까이 mapping 하였다. 또한, t-SNE embedding에서 다른 모양의 state지만 비슷한 expected reward를 가진 점들도 가까이 mapping하였다. 이는 DQN이 높은 차원의 데이터인 픽셀데이터를 통해 정확하게 표현을 학습하고 있다는 것을 보여준다. 인간과 agent의 데이터를 두 개 다 넣었을 때에도 t-SNE에서 확인을 하면 비슷한 위치에 mapping이 되어 자신이 학습한 policy가 아니더라도 generalization성능을 가지고 있다는 것을 보여준다.
문제점
Nevertheless, games demandingmore temporally extended planning strategies still constitute a major challengefor all existing agents including DQN (for example, Montezuma’s Revenge).
long-term planning이 필요한 게임은 아직은 어려워하는 모습을 보여준다. 하지만 밑에 있는 게임처럼 옆에 있는 블록만 깨서 높은 점수를 얻는 방식의 플레이도 가능하다는 것을 보여줬다. 즉, 어느 정도의 long-term planning은 가능하다.