Os sistemas de recomendação modernos são tratados como um problema de aprendizado por reforço, com uma soma de recompensas futuras com desconto ou como transações estritamente de etapa única? Muitos produtos fazem análises de dados off-line significativas sobre as ações tomadas para informar as mudanças, mas parece subestimado o quão mais poderoso é fazer mudanças de política em um conjunto ao vivo e massivamente paralelo de ambientes/usuários independentes. A RL offline é fundamentalmente mais difícil do que a RL online – você tem que se proteger contra o bootstrapping em uma fantasia otimista não testada pela realidade.
83,72K