هل يتم التعامل مع أنظمة التوصية الحديثة على أنها مشكلة تعلم معزز ، بمجموع من المكافآت المستقبلية المخفضة ، أو كمعاملات بخطوة واحدة بدقة؟ تقوم العديد من المنتجات بتحليل كبير للبيانات دون اتصال بالإنترنت حول الإجراءات المتخذة لإبلاغ التغييرات ، ولكن يبدو أنه لا يقدر مدى قوة إجراء تغييرات في السياسة على مجموعة حية ومتوازية على نطاق واسع من البيئات / المستخدمين المستقلين. يعد RL غير المتصل أصعب بشكل أساسي من RL عبر الإنترنت - عليك الحماية من التمهيد إلى خيال متفائل لم يختبره الواقع.
‏‎83.71‏K