解构彩票:零、符号和超级面具

解构彩票:零、符号和超级面具

在优步,我们应用神经网络从根本上改善了我们对城市中人和物运动的理解。在其他用例中,我们使用它们来实现更快的客户服务响应利用自然语言模型和较低的等待时间,通过对跨城市需求的时空预测,并在此过程中发展了基础设施扩大培训规模支持更快模型发展

尽管神经网络是功能强大、应用广泛的工具,但人们对其许多微妙的特性仍然知之甚少。全世界的科学家都在朝着照明基本网络属性我们的大部分研究都是在美国进雷竞技是骗人的行的超级人工智能我们的工作也在这个方向上测量内在网络复杂性寻找更自然的输入空间,发现流行模型中隐藏的缺陷

在我们最近一篇旨在揭开神经网络神秘面纱的论文中,解构彩票:零、符号和超级面具,我们建立在迷人的基础上彩票假说是弗兰克尔和卡宾发明的他们的工作让许多研究人员感到惊讶,因为他们展示了一个雷竞技是骗人的非常简单的算法——删除小权重并重新训练——可以在更大的网络中找到稀疏的可训练的子网络,或“彩票”,在整个网络中表现得和整个网络一样好。尽管他们清楚地证明了彩票是有效的,但他们的工作(就像伟大的研究经常发生的那样)提出的问题与它回答的问题一样多,许多潜在的机制还没有被充分理解。雷竞技是骗人的我们的论文提出了这些机制背后的解释,揭示了这些子网络的奇怪怪招,介绍了彩票算法的竞争变体,并得出了一个令人惊讶的副产品:超级面具。

彩票假说

我们首先简要总结弗兰克和卡宾的论文,彩票假说:寻找稀疏、可训练的神经网络,我们简称为“LT”。在本文中,作者提出了一种简单的方法来生成稀疏的、高性能的网络:在训练一个网络后,将所有小于某个阈值的权重设置为零(修剪它们),将其余的权重返回到它们的初始配置,然后从这个初始配置重新训练网络,保持修剪后的权重冻结(未训练)。使用这种方法,他们得到了两个有趣的结果。

首先,他们表明修剪后的网络表现良好。积极修剪的网络(85%到95%的权重被修剪)与更大的未修剪的网络相比,性能没有下降。此外,网络只经常适度修剪(50%到90%的权重被修剪)的表现他们没有修剪。

其次,尽管这些结果令人信服,但剩下的网络结构和权重的特征也同样有趣。通常情况下,如果你取一个训练过的网络,用随机权重重新初始化它,然后重新训练它,它的性能会和以前差不多。但是对于骨架彩票(LT)网络,这个属性不成立。只有当网络恢复到初始状态(包括使用的特定初始权值)时,网络才能训练良好。用新的权重重新初始化它会导致它训练得很差。正如Frankle和Carbin的研究中指出的那样,修剪掩码(表示是否删除权重的每个权重的二进制值)和掩码下面的权重的特定组合似乎形成了一个在更大的网络中发现的幸运子网络,或者,正如原始研究中所命名的那样,一张中奖的“彩票”。

我们发现这个演示很有趣,因为所有的东西都没有说出来。LT网络是如何使它们表现出更好的性能的呢?为什么剪枝掩码和初始权值集如此紧密耦合,以至于重新初始化网络会使其变得不那么可训练?为什么简单地选择较大的权重构成了选择掩码的有效标准?创建蒙版的其他标准也可以吗?

神奇有效的口罩

我们从观察到一个需要解释的奇怪现象开始调查。在训练LT网络时,我们观察到许多重绕的、蒙面的网络都有准确性明显优于初始化的机会.也就是说,一个未经训练的网络加上一个特定的掩码会导致一个部分工作的网络。

这可能会让人感到惊讶,因为如果您使用随机初始化和未经训练的网络来分类来自MNIST数据集,你会认为准确率并不比偶然性(约10%)高。但是现在想象一下,您将网络权重乘以一个只包含0和1的掩码。在这种情况下,权重要么保持不变,要么完全删除,但现在生成的网络在任务中达到了近40%的准确率!这很奇怪,但当应用LT论文中选择最终值较大的权重(我们将其称为“大最终”掩码标准)的过程创建的掩码时,就会发生这种情况:

图1。如果未经训练的网络是随机初始化的,或者是随机初始化并随机屏蔽的,则它们的执行概率(例如,在所描述的MNIST数据集上的准确率为10%)。然而,应用彩票掩码提高了网络的准确性超过机会水平。

我们称掩码为掩码,它的性质是,在不训练底层权重的情况下,可以立即产生部分工作的网络Supermasks

如图1所示,在随机初始化网络和随机掩码的随机初始化网络中,权重和掩码都不包含任何关于标签的信息,因此准确性不可能可靠地优于随机性。在带有LT“large final”掩码的随机初始化网络中,由于掩码确实来自训练过程,因此具有优于随机性能并非完全不可能。但这是出乎意料的,因为从训练返回到初始网络的唯一信息传输是通过0 - 1掩码,而掩码的标准只是选择最终大小较大的权重。

掩蔽就是训练,或者说为什么零很重要

那么,为什么仅仅使用LT掩模就能大大提高测试精度呢?

LT论文中实现的屏蔽过程执行两个动作:将权重设置为零,并冻结它们。通过弄清楚这两个组件中哪一个会提高性能训练有素的事实证明,我们还将揭示未经训练的网络的特殊性能背后的原理。

为了分离上述两个因素,我们进行了一个简单的实验:重现LT迭代修剪实验,其中网络权重在交替的训练/掩码/倒带循环中被掩盖,但尝试额外的处理:将零掩码权重冻结在初始值而不是零。如果0不是特殊的,这两种处理应该表现相似。我们跟随Frankle和Carbin(2019),在上训练三个卷积神经网络(cnn), Conv2, Conv4和Conv6(具有2/4/6个卷积层的小型cnn,与LT论文中使用的相同)CIFAR-10

结果如下图2所示,修剪(或者更准确地说,“冻结在某个值”)从左边的未修剪网络到右边的非常修剪网络。水平的黑线表示原始的、未修剪的网络的性能,平均超过五次运行。这里和其他图中的不确定性带表示五次运行的最小值和最大值。蓝色实线表示使用LT算法训练的网络,该算法将修剪的权重设置为零并冻结它们。蓝色虚线表示使用LT算法训练的网络,除了修剪权值冻结在初始值:

图2。当在CIFAR-10上测试三个cnn时,我们发现,将修剪权重冻结在初始值的网络的准确性比将修剪权重设置为零的网络的准确度下降得要明显得多。

我们看到,当权重被冻结在零时,网络表现得更好,而不是随机的初始值。对于这些通过LT“大最终值”准则掩盖的网络,当它们的最终值较小时,0似乎是一个特别好的权重设置值。

那么为什么0是理想值呢?一种假设是我们使用的掩码准则倾向于将那些趋向于零的权重掩盖为零.为了验证这个假设,让我们考虑一种新的冷冻方法。我们在前两个实验之间进行了另一个实验:对于任何要冻结的重量,如果它移动,我们将其冻结为零在训练过程中为0,如果它移动,我们将其冻结在随机的初始值走了从0。结果如下图3所示:

图3:根据训练过程中权重的移动方向,有选择地将权重冻结到初始值或零,比将所有权重冻结在零或init产生更好的性能。

我们看到这种处理的表现与原始LT网络一样好,即使我们没有将所有修剪权重冻结为零。事实上,如果我们将这种处理应用于所有的权重,包括我们保留的权重(也就是说,对于所有的权重,如果它们的大小下降,则将它们初始化为零,否则保持原始的初始值,然后将修剪后的权重冻结在新的初始值),我们得到的网络甚至比LT网络表现得更好!

这支持了我们的假设,即将值冻结为零所带来的好处来自于这些值无论如何都在向零移动。为了更深入地讨论为什么“大最终”掩码准则倾向于选择那些趋向于零的权重,参见我们的论文

因此,我们发现对于某些掩码标准,如“大final”掩蔽就是训练:掩蔽操作倾向于在训练中移动权重的方向。

这同时解释了为什么超级面具会存在,并暗示其他的面具标准可能会产生更好的超级面具,如果他们优先屏蔽到零权重,训练会使其趋近于零。

备选掩码条件

既然我们已经探索了为什么最初的LT掩码标准“large final”工作得这么好,我们可以问一下其他掩码标准也会表现得很好。“large final”准则保留具有较大最终值的权重,并将其余值设为零。我们可以把这个剪枝标准和其他许多标准看作是二维(w=初始权值wf=最终权重)空间划分为对应于应该保留(mask-1)和修剪(mask-0)权重的区域,如下图5所示:

图5。不同的掩码标准可以被认为是将(wi, wf)空间分割成与掩码值1 vs. 0对应的区域。椭圆以卡通形式表示给定层中正相关的初始权重和最终权重所占的面积。所示的掩码对应于LT论文中使用的“大最终值”准则:保留最终值大的权重,并修剪最终值接近零的权重。注意,这个标准忽略了权重的初始大小。

在前一节中,我们展示了一些支持假设的证据,即当那些已经趋向于零的权重被设置为零时,网络会很好地工作。这一假设表明,如果遵守这一基本规则,其他标准也可能起作用。这样的掩码标准之一是优先保留那些远离零的权重,我们可以将其写成评分函数|wf| - |w|。我们将此标准称为“幅度增加”,并将其与图6中作为对照案例运行的其他标准一起描述:

图6。本研究中考虑的8个掩码标准被显示出来,从LT论文中出现的“大最终”标准开始。我们用来指代各种方法的名称连同每个(w .)方法的公式一起给出wf)配对得分。保留得分最高的权重(彩色区域),修剪得分最低的权重(灰色区域)。

事实证明,这种“幅度增加”标准与“最终结果很大”标准一样有效,在某些情况下甚至明显更好。对于全连接(FC)和Conv4网络,所有标准的结果如下图7所示;看到我们的论文查看其他网络的性能结果。作为基线,我们还显示了一个随机修剪标准的结果,该标准简单地选择了一个具有所需修剪百分比的随机掩模。请注意,8个标准中的前6个标准形成了3对对立的标准;在每一种情况下,我们看到当一对中的一个成员表现得比随机基线好时,相反的成员表现得比它差。

图7。对两个网络(MNIST上的FC(左)和CIFAR-10上的Conv4(右))的精度与修剪百分比的测量表明,多个掩码标准——大最终值、幅度增加和其他两个标准——可靠地优于黑色随机修剪基线。在Conv4网络中,“幅度增加”的性能提升幅度大于其他掩码准则;“大最终”和“幅度增加”之间的差异在p=0.05水平上有统计学意义,此处用星号标记。

总的来说,我们观察到那些倾向于保持最终量级较大的权重的方法能够揭示性能子网络。

给我一个指示

我们已经探索了选择要修剪的权重以及将修剪的权重设置为什么值的各种方法。现在我们将考虑将保持权重设置为什么值。特别是,我们想探索Frankle和Carbin(2019)的一个有趣的观察,该观察表明,当你倒回到原始初始化时,修剪过的骨架LT网络训练得很好,但当你随机重新初始化网络时,性能会下降。

为什么重新初始化会导致LT网络训练不佳?初始化的哪些组件是重要的?

我们计算了许多重新初始化的变量来找出答案。

  • “Reinit”实验:基于原始初始化分布重新初始化保留权重
  • “重新洗牌”实验:重新初始化,同时尊重该层中剩余权重的原始分布,这是通过重新洗牌保留权重的初始值来实现的
  • “常数”实验:通过将剩余权重值设置为正或负常数来重新初始化,该常数设置为每层初始化的标准差

所有的重新初始化实验都基于相同的原始网络,并使用带有迭代修剪的“大最终”掩码准则。我们将原始LT网络(rewind, large final)和随机修剪网络(random)作为基线进行比较。

我们发现,这三个变体单独都不能像原来的LT网络那样训练,如下图8中的虚线所示:

图8:我们展示了两个网络FC(左)和Conv4(右)在使用不同的重新初始化方法时的测试精度与修剪百分比。尊重符号一致性和不尊重符号一致性的表现之间的明显区别表明,保留权重的具体初始值并不像它们的符号那么重要。

然而,当我们通过确保保留权重的重新分配值与原始初始值具有相同的符号来控制符号的一致性时,所有这三种变体都能更好地工作。这些在图8中显示为纯色线。显然,包括最初的“倒带”在内,所有表现比偶然更好的变体的共同因素是符号。这表明,只要你保留这个标志,重新初始化并不是交易的破坏者。事实上,只要我们尊重原始符号,即使像将所有保持权重设置为恒定值这样简单的操作也始终表现良好!

更好的Supermasks

在本文的开头,我们介绍了超级掩码的思想,这是一种二进制掩码,当应用于随机初始化的网络时,无需额外训练就能产生优于随机的准确性。现在我们将注意力转向寻找制造最佳超级面具的方法。

我们可以评估图7中所示的相同修剪方法和修剪百分比,以了解它们作为supermask的潜力。为了简单起见,我们基于一次性修剪而不是迭代修剪来评估Supermasks。我们还可以考虑为生成超级蒙版而优化的附加蒙版标准。基于对LT权重初始符号的重要性的认识,以及让权重接近其最终值的想法,我们引入了一种新的掩码准则,该准则选择具有较大最终幅度的权重,并且在训练结束时保持相同的符号。这种方法被称为“大的最终,相同的符号”,我们在下面的图9中描述它。我们还添加了“large final, diff sign”作为控制案例,它寻找在训练结束时改变符号的权重。

图9。在这项研究中,“大的最终,相同的符号”掩模准则产生了性能最高的超级掩模。与图5中的“large final”掩码相比,注意这个标准掩码了符号w的象限和wf是不同的。

通过使用“大最终同号”的简单掩码标准,我们可以创建在MNIST上获得惊人的80%测试准确率和在CIFAR-10上获得24%测试准确率的网络。另一个有趣的观察是,如果我们将掩码应用于有符号常数(如前一节所述),而不是实际的初始权重,我们可以在MNIST上产生更高的测试精度,最高可达86%,在CIFAR-10上可达41%。

图10:我们在MNIST上评估单个FC网络在初始化(没有训练)时的准确性,并受到各种掩码应用的影响。x轴描述了网络中剩余权重的百分比;所有其他权重都设置为零。“大的最终相同的符号”蒙版创建了最高性能的超级蒙版。请注意,除了为生成不确定性带而执行的五次独立运行外,该图上的每个数据点都是相同的底层网络,只是应用了不同的掩码。

我们发现这些超级面具的存在很有趣,而且可以通过这样简单的标准找到。除了是一种科学好奇心之外,它们还可能对迁移学习和元学习产生影响——网络可以近似地解决,例如,MNIST输入像素的任何排列和输出类的排列都在那里,只是带有不同的掩码。他们还为我们提供了一种网络压缩的方法,因为我们只需要保存一个二进制掩码和一个随机种子重构网络的全权值

如果你好奇我们能把这些超级面具的性能提升到什么程度,看看吧我们的论文我们尝试直接为他们培训。如果你想进行类似于这篇论文的实验,请查看我们的代码让我们知道你的发现!

如果你对神经网络工作感兴趣,可以考虑申请机器学习在Uber的角色

作者要感谢Jonathan Frankle、Joel Lehman和Sam Greydanus,感谢他们对这项工作的早期草稿进行了有益的讨论和评论。

评论

没有帖子显示