抽象的
在初步培训之后,我们如何建立能够快速有效地从经验中学习的代理商?在这里,我们从生物学大脑中学习的主要机制中汲取灵感:突触可塑性,通过进化仔细调整以产生有效的终身学习。我们表明,就像连接权重一样,可以通过具有HEBBIAN塑料连接的大型(数百万参数)复发网络中的梯度下降来优化可塑性。首先,可以训练具有超过200万参数的经常性塑料网络,以记住和重建新型,高维的1000多个像素自然图像的新型,高维的自然图像。至关重要的是,传统的非塑性复发网络无法解决此任务。此外,受过训练的塑料网络还可以解决诸如Omniglot任务之类的通用元学习任务,并具有竞争性结果和很少的参数开销。最后,在加强学习设置中,塑料网络在迷宫探索任务中的表现优于非塑料。我们得出的结论是,可不同的可塑性可以为学习对学习问题提供强大的新颖方法。
作者
Thomas Miconi,,,,杰夫·克莱恩(Jeff Clune),,,,肯尼思·斯坦利(Kenneth O. Stanley)
会议
ICML 2018
完整的纸
Uber AI
注释