Algorithmes de sortie du Piège de la Zone Ennuyeuse en apprentissage par renforcement

Landry Steve Noulawe Tchamanbe; Paulin MELATAGIA YONTA

doi:10.46298/arima.6748

Landry Steve Noulawe Tchamanbe ; Paulin Melatagia Yonta - Algorithmes de sortie du Piège de la Zone Ennuyeuse en apprentissage par renforcement

arima:6748 - Revue Africaine de Recherche en Informatique et Mathématiques Appliquées, 2 juillet 2021, Volume 34 - Numéro spécial CARI 2020 - 2021 - https://doi.org/10.46298/arima.6748

Algorithmes de sortie du Piège de la Zone Ennuyeuse en apprentissage par renforcementArticle

Auteurs : Landry Steve Noulawe Tchamanbe ^1,²; Paulin MELATAGIA YONTA

1 Département d'informatique, Faculté des Sciences, Université de Yaoundé 1
2 Informatique distribuée pour l’analyse des systèmes complexes [Yaoundé]

Les algorithmes d'apprentissage par renforcement ont réussi au fil des années à obtenir des résultats impressionnants dans divers domaines. Cependant, ces algorithmes souffrent de certaines faiblesses mises en évidence par Refael Vivanti et al. qui peuvent expliquer la régression des agents même bien entraînés dans certains environnements : la différence de variance sur les récompenses entre les zones de l'environnement. Cette différence de variance conduit à deux problèmes : le Piège de la Zone Ennuyeuse (Boring Area Trap) et le Consultant Manipulateur. Nous observons que l'algorithme Adaptive Symmetric Reward Noising (ASRN) proposé par Refael Vivanti et al. présente des limites pour des environnements ayant les caractéristiques suivantes : longues durées de jeu et environnement à zones ennuyeuses multiples. Pour pallier ces problèmes, nous proposons trois algorithmes dérivés de l'algorithme ASRN nommés Rebooted Adaptive Symmetric Reward Noi-sing (RASRN) : Continuous ε decay RASRN, Full RASRN et Stepwise α decay RASRN. Grâce à deux séries d'expérimentations menées sur le problème du bandit à k bras, nous montrons que ces algorithmes permettent de mieux corriger le problème du piège de la zone ennuyeuse.

https://doi.org/10.46298/arima.6748

Source : HAL:hal-02925738v3

Volume : Volume 34 - Numéro spécial CARI 2020 - 2021

Publié le : 2 juillet 2021

Accepté le : 24 juin 2021

Soumis le : 1 septembre 2020

Mots-clés : k-armed bandit,ASRN,Boring Area Trap,Reinforcement Learning,k-armed bandit,bandit à k bras.,ASRN,Piège de la Zone Ennuyeuse,Apprentissage par renforcement,bandit à k bras.,[INFO]Computer Science [cs],[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI],[STAT.ML]Statistics [stat]/Machine Learning [stat.ML]

Publications

autre

10.46298/arima.6748

1 HAL

Références bibliographiques

Partager et exporter

Statistiques de consultation

Cette page a été consultée 551 fois.

Le PDF de cet article a été téléchargé 425 fois.