抽象的
Frankle&Carbin最近的“彩票假设”论文表明,创建稀疏网络(保持大量重量)的简单方法会导致可从头开始训练的模型,但仅在从相同的初始权重开始时。这些网络的性能通常超过非SPARSE基本模型的性能,但出于不太了解的原因。在本文中,我们研究了彩票(LT)算法的三个关键组成部分,表明每个算法可能会大大变化而不影响整体结果。消除这些因素会导致有关LT网络的性能以及它们这样做的原因的新见解。我们展示了为什么将权重设置为零很重要,您如何制作重新定位的网络火车所需的迹象,以及为什么掩盖训练之类的掩盖行为。最后,我们发现了可以应用于未经训练的,随机初始化的网络的超级卸载板或掩模的存在,以产生远比偶然性的模型(MNIST的86%,在CIFAR-10上为41%)。
作者
Hattie Zhou,,,,珍妮丝·兰(Janice Lan),,,,罗莎恩·刘(Rosanne Liu),,,,杰森·尤辛斯基(Jason Yosinski)
会议
Neurips 2019
完整的纸
Uber AI
注释