Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Les systèmes de recommandation modernes sont-ils traités comme un problème d'apprentissage par renforcement, avec une somme de récompenses futures actualisées, ou comme des transactions strictement à étape unique ?
De nombreux produits effectuent une analyse de données hors ligne significative sur les actions entreprises pour informer les changements, mais il semble sous-estimé à quel point il est plus puissant d'apporter des changements de politique sur un ensemble en direct, massivement parallèle d'environnements/utilisateurs indépendants.
L'apprentissage par renforcement hors ligne est fondamentalement plus difficile que l'apprentissage par renforcement en ligne — vous devez vous protéger contre le fait de se projeter dans une fantaisie optimiste non testée par la réalité.
83,71K
Meilleurs
Classement
Favoris