Чи розглядаються сучасні системи рекомендацій як проблема навчання з підкріпленням, з сумою дисконтованих майбутніх винагород, або як строго одноетапні транзакції? Багато продуктів проводять значний автономний аналіз даних про дії, вжиті для інформування про зміни, але, здається, недооцінюють, наскільки ефективнішим є внесення змін до політик на живому, масово паралельному наборі незалежних середовищ/користувачів. Офлайн RL принципово складніший, ніж онлайн-RL — вам потрібно захиститися від того, щоб не потрапити в оптимістичну фантазію, не перевірену реальністю.
83,73K