SBNet:利用激活块稀疏性加速卷积神经网络

2018年1月16日

推特

投票

2股票

通过应用卷积神经网络(cnn)和其他深度学习技术研究人员雷竞技是骗人的超级ATG多伦多致力于开发为更安全、更可靠的交通解决方案提供动力的技术。

cnn被广泛用于分析视觉图像和数据激光雷达传感器。在自动驾驶中，cnn可以让自动驾驶车辆看到其他车辆和行人，确定他们的确切位置，并解决许多以前传统算法无法解决的其他难题。为了确保我们的自主系统是可靠的，这样的cnn应用程序必须以极高的速度运行GPUs.开发有效的方法来提高响应时间和准确性，同时降低cnn的设备成本和功耗是目前的研究重点。雷竞技是骗人的

作为这一努力的一部分，我们开发了块稀疏的网络(SBNet)开源算法TensorFlow通过利用CNN激活中的稀疏性来加速推断。使用SBNet，我们表明，当与的结合时，加速可以达到一个数量级剩余网络(ResNet)自动驾驶架构。SBNet允许通过更深更广的网络配置进行实时推理，在减少计算预算的情况下获得准确性。

在本文中，我们讨论了如何构建SBNet，并展示了算法在自动驾驶3D激光雷达目标检测器中的实际应用，该算法显著提高了挂钟的速度和检测精度。

背景

传统的深度cnn在数百层的所有空间位置上统一应用卷积算子，每秒需要数万亿次操作。在我们最新的雷竞技是骗人的在美国，我们认识到许多此类操作都浪费在对不相关信息的过度分析上。在一个典型的场景中，只有一小部分观测到的数据是重要的;我们把这种现象称为稀疏．在自然界中，生物神经网络，如视觉皮层通过在周围视觉中检测到的运动聚焦中心凹视觉，减少视网膜周围部分的受体密度和颜色信息，利用稀疏性。

在人工神经网络的背景下，激活稀疏cnn已经在小范围的任务中探索过了，比如手写识别，但与之相比，还没有产生实际的加速高度优化的密集卷积实现．

然而，我们的研究表明，利用雷竞技是骗人的我们所说的可以实现一个数量级的实际加速块稀疏在CNN激活中，如图1所示:

图1。使用NVIDIA GTX 1080Ti上的TensorFlow 1.2.1 + cuDNN 6.0对单个稀疏剩余网络块的加速进行了测量，该网络块针对激活大小700×400、96个输入通道和24个输出通道的稀疏程度进行了测量。

介绍:SBNet

有了这些见解，我们开发了SBNet，这是TensorFlow的一个开源算法，它利用了CNNs激活中的稀疏性，从而显著加快了推理。

为了我们的算法的目的，我们从一个表示激活非零的位置的掩码定义块稀疏性。这个掩码可以来自对问题的先验知识，或者简单地来自阈值平均激活。为了利用高度优化的密集卷积算子，我们定义了两个操作，将稀疏激活转换为只包含非零元素的更小的特征映射。

SBNet完成这首先对注意掩码执行池操作，使用来自输入张量的重叠块，并将其转换为传递给块收集操作的索引列表，如图2所示:

图2。为了利用cnn激活中的稀疏性，SBNet首先将计算掩码转换为平铺索引列表。

的收集操作然后取瓷砖，并沿着批维度将它们堆叠在一起，形成一个新的张量。现有的优化实现的密集卷积，然后使用和自定义散射运算然后执行逆运算，将结果写在原始密度输入张量的顶部。下面的图3显示了我们提出的使用稀疏聚集/散射操作的稀疏卷积机制:

当我们为SBNet设计稀疏操作api时，我们希望使其易于集成到流行的CNN体系结构中，例如ResNet而且《盗梦空间》，以及其他定制的CNN构建模块。为了做到这一点，我们发布 CUDA我们介绍的三个基本操作的实现和TensorFlow包装器:reduce_mask，sparse_gather,sparse_scatter．使用这些低级操作，可以将块稀疏性添加到不同的CNN体系结构和配置中。

下面，我们提供了一个TensorFlow示例，演示如何使用SBNet原语稀疏化单层卷积操作:

更多的例子可以在我们的GitHub回购包括ResNet块的完整实现。

接下来，我们讨论了如何在Uber ATG中应用SBNet来训练3D车辆检测系统。

应用:从激光雷达点进行三维车辆检测

在Uber ATG Toronto，我们验证了SBNet从激光雷达点进行3D车辆检测的任务，这是一个有效的用例，因为它的输入稀疏，推理需要严格的时间限制。在我们的模型中，激光雷达以每秒10次的径向扫描速度生成周围环境的3D点云。对于每一次扫描，我们为所有周围的车辆手动标注3D边界框。除了点云和3D标签，我们还有从地图中提取的道路布局信息。

数据、车辆标签和路线图的鸟瞰图如下图4所示:

图4。我们的LiDAR 3D车辆检测使用路线图作为计算掩码(蓝色);基本事实显示为方框(绿色)。

首先，我们采用基于cnn的方法解决这一问题，从俯视图上以0.1m /像素的分辨率对LiDAR点云进行离散化;结果，数据表示表现出超过95%的稀疏性。然后，数据被输入一个基于resnet的单次探测器。(有关我们的基线检测器的更多信息，请参阅我们的研雷竞技是骗人的究．）

我们将SBNet的两个变体与使用传统的基线检测器进行基准测试密集的卷积，用相应的块稀疏版本替换所有层。这些变体基于两种不同的稀疏性信息来源:一种使用预先计算的路线图(预先知道)，另一种使用预测的前景掩码。路线图可以从离线地图中提取，这不会增加探测器的计算时间。预测的前景掩码是使用额外的低分辨率CNN生成的，并产生比路线图更高的稀疏性。

当利用SBNet时，与基线检测器相比，我们测量了两种变体的显著加速。在下面的图5中，我们根据输入数据的稀疏程度绘制了测量的加速:

图5。使用SBNet，我们实现了全3D车辆探测器网络的加速。在NVIDIA Titan X Pascal上使用TensorFlow 1.2.1和cuDNN 6.0进行测量。

路线图变体的平均稀疏度为80%，对应的是2倍以上的加速，而预测面具变体的平均稀疏度约为90%，对应的是3倍的加速

在检测精度方面，用SBNet体系结构重新训练检测器，平均精度提高了2个百分点。这表明，利用数据稀疏性通过减少噪声和方差稳定模型训练，导致更准确的3D车辆检测，以及更快的推断时间。

下一个步骤

我们相信SBNet可以广泛应用于各种深度学习体系结构、模型、应用程序和稀疏性来源，我们很高兴看到深度学习研究社区将以不同的方式利用这些体系结构构建块。雷竞技是骗人的关于SBNet和我们研究的更详细的解释，我们鼓励您阅读我们的雷竞技是骗人的白皮书．

有关这项最新工作的总结，请查看下面的视频:

优步正在扩大其位于加拿大多伦多的先进技术集团，专注于感知、预测、运动规划、定位和地图等人工智能研发。雷竞技是骗人的如果你对开发自动驾驶的新型计算机视觉和机器学习算法感兴趣，可以考虑申请一个角色在我们的团队!

任梦叶、安德烈•波克罗夫斯基和杨斌是优步多伦多先进技术集团的研究员/工程师。雷竞技是骗人的Raquel Urtasun是Uber ATG Toronto的负责人，也是多伦多大学计算机科学系的副教授，以及Vector Institute for AI的联合创始人。

关于Uber如何应对ML和AI的未来，请查看我们的其他英语博客文章，如下:雷竞技到底好不好用

进一步的阅读

任M.， A. Pokrovsky, B. Yang, R. Urtasun， "SBNet:用于快速推断的稀疏块网络arXiv预印本arXiv:1801.02108, 2018。（GitHub）
Y. LeCun, L. Bottou, Y. Bengio, P. Haffner "基于梯度的学习在文档识别中的应用电子学报，86 (11):2278-2324,doi:10.1109/5.726791, 1998。
阿巴迪等人。”TensorFlow:异构分布式系统的大规模机器学习arXiv预印本arXiv:1603.04467, 2016。
b·格雷厄姆和l·范·德·马腾子流形稀疏卷积网络，”arXiv预印本，arXiv:1706.01307, 2017。
何凯、张旭、任硕、孙杰，"基于深度残差学习的图像识别，发表于《IEEE计算机视觉与模式识别会议论文集》，2017年。
拉文和格雷。”卷积神经网络的快速算法，”发表于2016年《IEEE计算机视觉与模式识别会议论文集》。

推特

投票

2股票