Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hace 1 década: Ingeniero de Prompts de Aprendizaje por Refuerzo en la Sec. 5.3 de «Aprender a pensar...» [2]. ¡Cadena de pensamiento adaptativa! Una red de RL aprende a consultar otra red para el razonamiento abstracto y la toma de decisiones. Ir más allá del Modelo Mundial de 1990 para la planificación milisegundo a milisegundo [1].
[2] J. Schmidhuber (JS, 2015). «Sobre aprender a pensar: teoría algorítmica de la información para combinaciones novedosas de controladores RL y modelos de mundo neuronal recurrentes». ArXiv 1210.0118
[1] JS (1990). «Hacer que el mundo sea diferenciable: sobre el uso de redes neuronales autosupervisadas totalmente recurrentes para el aprendizaje y la planificación de refuerzo dinámico en entornos no estacionarios». TR FKI-126-90, TUM. (Este informe también introdujo la curiosidad artificial y la motivación intrínseca a través de redes generativas antagónicas).

24,23K
Parte superior
Clasificación
Favoritos