Landry Steve Noulawe Tchamanbe ; Paulin Melatagia Yonta - Algorithms to get out of Boring Area Trap in Reinforcement Learning

arima:6748 - Revue Africaine de Recherche en Informatique et Mathématiques Appliquées, July 2, 2021, Volume 34 - Special Issue CARI 2020 - 2021 - https://doi.org/10.46298/arima.6748
Algorithms to get out of Boring Area Trap in Reinforcement LearningArticle

Authors: Landry Steve Noulawe Tchamanbe 1,2,3; Paulin MELATAGIA YONTA

  • 1 Département d'informatique, Faculté des Sciences, Université de Yaoundé 1
  • 2 Informatique distribuée pour l’analyse des systèmes complexes [Yaoundé]
  • 3 University of Yaoundé 1 = Université de Yaoundé I

[en]
Reinforcement learning algorithms have succeeded over the years in achieving impressive results in a variety of fields. However, these algorithms suffer from certain weaknesses highlighted by Refael Vivanti and al. that may explain the regression of even well-trained agents in certain environments : the difference in variance on rewards between areas of the environment. This difference in variance leads to two problems : Boring Area Trap and Manipulative consultant. We note that the Adaptive Symmetric Reward Noising (ASRN) algorithm proposed by Refael Vivanti and al. has limitations for environments with the following characteristics : long game times and multiple boring area environments. To overcome these problems, we propose three algorithms derived from the ASRN algorithm called Rebooted Adaptive Symmetric Reward Noising (RASRN) : Continuous ε decay RASRN, Full RASRN and Stepwise α decay RASRN. Thanks to two series of experiments carried out on the k-armed bandit problem, we show that our algorithms can better correct the Boring Area Trap problem.

[fr]
Les algorithmes d'apprentissage par renforcement ont réussi au fil des années à obtenir des résultats impressionnants dans divers domaines. Cependant, ces algorithmes souffrent de certaines faiblesses mises en évidence par Refael Vivanti et al. qui peuvent expliquer la régression des agents même bien entraînés dans certains environnements : la différence de variance sur les récompenses entre les zones de l'environnement. Cette différence de variance conduit à deux problèmes : le Piège de la Zone Ennuyeuse (Boring Area Trap) et le Consultant Manipulateur. Nous observons que l'algorithme Adaptive Symmetric Reward Noising (ASRN) proposé par Refael Vivanti et al. présente des limites pour des environnements ayant les caractéristiques suivantes : longues durées de jeu et environnement à zones ennuyeuses multiples. Pour pallier ces problèmes, nous proposons trois algorithmes dérivés de l'algorithme ASRN nommés Rebooted Adaptive Symmetric Reward Noi-sing (RASRN) : Continuous ε decay RASRN, Full RASRN et Stepwise α decay RASRN. Grâce à deux séries d'expérimentations menées sur le problème du bandit à k bras, nous montrons que ces algorithmes permettent de mieux corriger le problème du piège de la zone ennuyeuse.


Volume: Volume 34 - Special Issue CARI 2020 - 2021
Published on: July 2, 2021
Accepted on: June 24, 2021
Submitted on: September 1, 2020
Keywords: [INFO]Computer Science [cs], [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], [STAT.ML]Statistics [stat]/Machine Learning [stat.ML], [en] k-armed bandit, ASRN, Boring Area Trap, Reinforcement Learning, k-armed bandit; [fr] bandit à k bras., ASRN, Piège de la Zone Ennuyeuse, Apprentissage par renforcement, bandit à k bras.

Publications

other
  • 1 HAL

Consultation statistics

This page has been seen 782 times.
This article's PDF has been downloaded 487 times.