Les algorithmes d'apprentissage par renforcement ont réussi au fil des années à obtenir des résultats impressionnants dans divers domaines. Cependant, ces algorithmes souffrent de certaines faiblesses mises en évidence par Refael Vivanti et al. qui peuvent expliquer la régression des agents même bien entraînés dans certains environnements : la différence de variance sur les récompenses entre les zones de l'environnement. Cette différence de variance conduit à deux problèmes : le Piège de la Zone Ennuyeuse (Boring Area Trap) et le Consultant Manipulateur. Nous observons que l'algorithme Adaptive Symmetric Reward Noising (ASRN) proposé par Refael Vivanti et al. présente des limites pour des environnements ayant les caractéristiques suivantes : longues durées de jeu et environnement à zones ennuyeuses multiples. Pour pallier ces problèmes, nous proposons trois algorithmes dérivés de l'algorithme ASRN nommés Rebooted Adaptive Symmetric Reward Noi-sing (RASRN) : Continuous ε decay RASRN, Full RASRN et Stepwise α decay RASRN. Grâce à deux séries d'expérimentations menées sur le problème du bandit à k bras, nous montrons que ces algorithmes permettent de mieux corriger le problème du piège de la zone ennuyeuse.