Os sistemas de recomendação modernos são tratados como um problema de aprendizagem por reforço, com uma soma de recompensas futuras descontadas, ou como transações estritamente de um único passo? Muitos produtos realizam uma análise significativa de dados offline sobre as ações tomadas para informar mudanças, mas parece subestimado o quão mais poderoso é fazer mudanças de política em um conjunto ao vivo, massivamente paralelo de ambientes/usuários independentes. O RL offline é fundamentalmente mais difícil do que o RL online — você tem que se proteger contra a bootstraping em uma fantasia otimista não testada pela realidade.
83,72K