Les systèmes de recommandation modernes sont-ils traités comme un problème d'apprentissage par renforcement, avec une somme de récompenses futures actualisées, ou comme des transactions strictement à étape unique ? De nombreux produits effectuent une analyse de données hors ligne significative sur les actions entreprises pour informer les changements, mais il semble sous-estimé à quel point il est plus puissant d'apporter des changements de politique sur un ensemble en direct, massivement parallèle d'environnements/utilisateurs indépendants. L'apprentissage par renforcement hors ligne est fondamentalement plus difficile que l'apprentissage par renforcement en ligne — vous devez vous protéger contre le fait de se projeter dans une fantaisie optimiste non testée par la réalité.
83,71K