Sistemele moderne de recomandare sunt tratate ca o problemă de învățare prin întărire, cu o sumă de recompense viitoare reduse sau ca tranzacții strict într-un singur pas? Multe produse fac o analiză semnificativă a datelor offline cu privire la acțiunile întreprinse pentru a informa schimbările, dar pare subapreciat cât de puternic este să faci schimbări de politică pe un set live și paralel de medii/utilizatori independenți. RL offline este fundamental mai greu decât RL online - trebuie să te ferești să nu intri într-o fantezie optimistă netestată de realitate.
83,73K