Czy nowoczesne systemy rekomendacji są traktowane jak problem uczenia ze wzmocnieniem, z sumą zdyskontowanych przyszłych nagród, czy jako ściśle jednorazowe transakcje? Wiele produktów przeprowadza znaczną analizę danych offline na podstawie podjętych działań, aby informować o zmianach, ale wydaje się, że nie docenia się, jak dużo bardziej potężne jest wprowadzanie zmian w polityce w czasie rzeczywistym, w masowo równoległym zestawie niezależnych środowisk/użytkowników. Offline RL jest zasadniczo trudniejsze niż online RL — musisz chronić się przed bootstrapowaniem w optymistyczną fantazję, która nie została przetestowana przez rzeczywistość.
83,7K