논문 리뷰/Reinforcement Learning

    [논문 리뷰] Grandmaster level in StarCraft II using multi-agent reinforcement learning (AlphaStar)

    [논문 리뷰] Grandmaster level in StarCraft II using multi-agent reinforcement learning (AlphaStar)

    오늘은 학교에서 리뷰했던 논문을 블로그로 정리해보려고 한다. 이번 논문은 강화학습으로 스타크래프트 2를 학습을 하여 그랜드마스터의 MMR을 가진 agent를 만들었다. 알파고와 마찬가지로 네이쳐에 올라왔으며, 아주 복잡한 환경에서 강화학습을 어떻게 진행했는지를 아주 잘 보여주고 있다. Grandmaster level in StarCraft II using multi-agent reinforcement learning | Nature 스타크래프트란?스타크래프트는 고난도의 전술을 세우면서 각 유닛들을 조종해야 하는 게임이다. 3가지 종족이 있고, 작은 베이스에서 시작해서 점점 빌딩을 짓고 유닛을 만들면서 상대방의 건물들을 부수면 이기는 게임이다. 왜 DeepMind는 스타크래프트를 골랐을까사실 간단히 생각해..

    [논문 리뷰] Asynchronous Methods for Deep Reinforcement Learning (A3C)

    [논문 리뷰] Asynchronous Methods for Deep Reinforcement Learning (A3C)

    이번 논문에서는 강화학습을 비동기적이게 학습을 하게 만든 논문을 들고 왔다. 이 논문의 특이점이라고 한다면 보통의 학습에서 쓰이는 GPU를 사용하지 않고 CPU 코어들을 통한 병렬학습을 한다는 것이다. 이를 통해 Atari 벤치마크에서 새로운 기록을 세웠고 다른 도메인에서도 좋은 결과를 보여주는 모습이다. [1602.01783] Asynchronous Methods for Deep Reinforcement Learning (arxiv.org) Asynchronous Methods for Deep Reinforcement Learning We propose a conceptually simple and lightweight framework for deep reinforcement learning that..

    [논문 리뷰] Rainbow: Combining Improvements in Deep Reinforcement Learning (Rainbow DQN)

    [논문 리뷰] Rainbow: Combining Improvements in Deep Reinforcement Learning (Rainbow DQN)

    [1710.02298] Rainbow: Combining Improvements in Deep Reinforcement Learning (arxiv.org) Rainbow: Combining Improvements in Deep Reinforcement Learning The deep reinforcement learning community has made several independent improvements to the DQN algorithm. However, it is unclear which of these extensions are complementary and can be fruitfully combined. This paper examines six extensions to the ..

    [논문 리뷰] Noisy Networks for Exploration (NoisyNet)

    [논문 리뷰] Noisy Networks for Exploration (NoisyNet)

    [1706.10295] Noisy Networks for Exploration (arxiv.org) Noisy Networks for Exploration We introduce NoisyNet, a deep reinforcement learning agent with parametric noise added to its weights, and show that the induced stochasticity of the agent's policy can be used to aid efficient exploration. The parameters of the noise are learned with grad arxiv.org 이번 논문에는 DQN에 있는 fully connected layer에 param..

    [논문 리뷰] Prioritized Experience Replay (PER)

    [논문 리뷰] Prioritized Experience Replay (PER)

    [1511.05952] Prioritized Experience Replay (arxiv.org) Prioritized Experience Replay Experience replay lets online reinforcement learning agents remember and reuse experiences from the past. In prior work, experience transitions were uniformly sampled from a replay memory. However, this approach simply replays transitions at the same frequ arxiv.org 이 논문은 DQN의 uniformly sampled experience replay..