Landry Steve Noulawe Tchamanbe ; Paulin MELATAGIA YONTA - Algorithmes de sortie du Piège de la Zone Ennuyeuse en apprentissage par renforcement

arima:6748 - Revue Africaine de Recherche en Informatique et Mathématiques Appliquées, 2 juillet 2021, Volume 34 - Numéro spécial CARI 2020 - 2021 - https://doi.org/10.46298/arima.6748
Algorithmes de sortie du Piège de la Zone Ennuyeuse en apprentissage par renforcementArticle

Auteurs : Landry Steve Noulawe Tchamanbe 1,2; Paulin MELATAGIA YONTA

  • 1 Département d'informatique, Faculté des Sciences, Université de Yaoundé 1
  • 2 Informatique distribuée pour l’analyse des systèmes complexes [Yaoundé]

Les algorithmes d'apprentissage par renforcement ont réussi au fil des années à obtenir des résultats impressionnants dans divers domaines. Cependant, ces algorithmes souffrent de certaines faiblesses mises en évidence par Refael Vivanti et al. qui peuvent expliquer la régression des agents même bien entraînés dans certains environnements : la différence de variance sur les récompenses entre les zones de l'environnement. Cette différence de variance conduit à deux problèmes : le Piège de la Zone Ennuyeuse (Boring Area Trap) et le Consultant Manipulateur. Nous observons que l'algorithme Adaptive Symmetric Reward Noising (ASRN) proposé par Refael Vivanti et al. présente des limites pour des environnements ayant les caractéristiques suivantes : longues durées de jeu et environnement à zones ennuyeuses multiples. Pour pallier ces problèmes, nous proposons trois algorithmes dérivés de l'algorithme ASRN nommés Rebooted Adaptive Symmetric Reward Noi-sing (RASRN) : Continuous ε decay RASRN, Full RASRN et Stepwise α decay RASRN. Grâce à deux séries d'expérimentations menées sur le problème du bandit à k bras, nous montrons que ces algorithmes permettent de mieux corriger le problème du piège de la zone ennuyeuse.


Volume : Volume 34 - Numéro spécial CARI 2020 - 2021
Publié le : 2 juillet 2021
Accepté le : 24 juin 2021
Soumis le : 1 septembre 2020
Mots-clés : k-armed bandit,ASRN,Boring Area Trap,Reinforcement Learning,k-armed bandit,bandit à k bras.,ASRN,Piège de la Zone Ennuyeuse,Apprentissage par renforcement,bandit à k bras.,[INFO]Computer Science [cs],[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI],[STAT.ML]Statistics [stat]/Machine Learning [stat.ML]

Publications

Other
  • 1 HAL

Statistiques de consultation

Cette page a été consultée 335 fois.
Le PDF de cet article a été téléchargé 284 fois.