内部Uber ATG的数据挖掘操作：识别机器学习规模的真实道路情景|ti8 竞猜雷竞技app优步工程博客雷竞技到底好不好用

Uber ATG内部的数据挖掘操作：确定机器学习规模的真实道路情景

Steffon Davis.那shouheng yi.那安迪李，和Mallika Chawda.

2020年6月2日

鸣叫99.

分享12.

投票

whatsapp.

111.分享

行人是如何过马路的？

与普遍的想法相反，有时候答案并不像“到达另一边”那么简单。“为了将安全可靠的自动驾驶汽车(SDVs)带到美国的街道上优步高级技术组（ATG），我们的机器学习团队必须通过预测与行人决定过马路的一些可能的真实世界成果来充分掌握这一情景。要了解这种情况如何发挥作用，我们需要测量与真正的行业行为的多种可能的场景变化。这些测量功率性能改进飞轮：

- 感知和预测：机器学习模型具有全面，多样化，不断策划的培训示例（改进的精确/召回，减少训练时间，减少计算）。
- 运动规划：能力开发基于场景的要求（更高的测试通过，较低的干预率）。
- 标签：有针对性的标签工作，全面、多样、不断更新的场景(提高标签质量，加快标签生产速度，降低生产成本)。
- 虚拟模拟：与真实场景保持一致的测试(更高的测试质量、更有效的测试运行、更低的计算成本)。
- 安全与系统工程:统计上的显着规范和能力要求与现实世界（改善发展质量，加速发展速度，降低的开发成本）保持一致。

随着衡量现实世界的情景的目标，让我们前往街道上学习行人的横穿它们。

开车去观察行人

要了解行人可能会过于街道的各种方式，我们首先在一个真正的社区驾驶一个SDV来观察行人行为。使用车轮后面的驾驶员和SDV的感知系统激活，车载计算机检测，轨道和记录它所看到的行人的运动。

对于此示例性分析，让我们在1.7平方英里邻近的26小时内乘坐312英里的SDV驱动，如图1所示：

图1中的条高表示SDV在特定车道上行驶的次数。十字路口出现“尖峰”是SDV作为“网格覆盖”驾驶模式的一部分多次穿越同一个十字路口造成的。

理想的驾驶样本应该包含在相同的天气条件下，在每条街道上每小时、每一天、每一周和每个月行驶的相同里程数。本分析中使用的低选择数据样本包括26小时SDV行驶的312英里，因此值得强调由此产生的选择偏差。例如，驾驶并不会均匀地覆盖所有的街道(图1)，它主要发生在工作日上午9点到下午3点之间(图2)。这告诉我们，对行人行为的最终测量结果将倾向于描述这些街道和一天中的时间。

图2.此驱动量的热插拔按小时显示，此示例数据集中的数英里在早晨和下午，主要在周一和周三之间。

数据挖掘方案“行人过于街道”

图3.我们可以通过动画我们的SDV感知系统在地图上进行动画来验证数据挖掘方案的质量。

虽然SDV感知系统旨在检测行人，但只有一个行人的子集其实穿过街道。为了确定这种情况，我们可以为实际穿过街道的人进行数据挖掘，类似于人们如何为钻石挖掘一座山区。这是根据两部分的场景定义完成的：一个行人进入驾驶车道（开始穿过街道），然后进入街道的不同一侧（完成横跨街道）。在这个例子中，在312英里的驾驶中，数据挖掘操作突出了2,404个穿过街道的行人观察，如图4所示，如下图4所示，它在地图上可视化这些观察的“开始”和“结束”：

图4.在地图上穿过街道的行人的“开始”和“结束”点提供有关行人过境地点的重要信息。

有了成千上万的行人过马路的例子，让我们仔细看看数据所在的测量，以更好地了解他们到达道路的另一边。

分析“街道的行人”情景

行人过马路的场景有很多相关的测量，包括行人过马路的速度、道路宽度、行走的距离、过马路的持续时间、在人行横道上行走的距离，以及过马路时的红绿灯状态。就像在跑道上观察短跑运动员一样，这些测量描述了情况是如何发生的(例如，短跑运动员以14秒跑完100米)。让我们从分析一个测量指标开始:行人过马路的速度。

最快和最慢的行人

图5.平均交叉速度的散射图突出了我们SDV传感和感知系统所观察到的最快和最慢的平均速度。

如上所述，图5描绘了来自2,404个观察的样本的平均交叉速度的散点图，最快和最慢的行人在右侧可视化。整体平均交叉速度平均平均为1.39米/秒±0.019（或3.11英里/小时±0.042），信心99％，与研究的研究结果一致美国交通部。最快的交叉速度为3.6米/秒（相当于在7分钟，28秒内运行英里）。盒子图（图5中的点的右侧）表明大多数观察结果在平均值附近聚集。

让我们在以下分布中调查这些值更接近：

图6。行人过马路的平均速度分为“中等”和“极端”，这一分布显示，平均而言，行人最有可能以1.39米/秒左右的速度过马路。

上面图6中的分布证实了大多数观察结果都聚集在平均值附近，显示出总体的钟形曲线形状。蓝色和红色表示两个标准差内和两个标准差外的值。蓝色表示在两个标准差范围内的“中度”，而红色表示在两个标准差范围内的“极端”。

红色条揭示了略微双模态分布的存在（即，实际上有“两个”钟曲线）。虽然蓝色值捕捉人们走过街上的人（“适度”的价值观），但红色的“极端”价值观捕获跑步的人们在街对面（约为2.7米/秒，大约有10分钟的步伐）。

现在，让我们进一步通过添加第二个测量来研究这种情况的形状，进入二维场景“空间”。

图7.平均步行速度和距离的二维散点图揭示了大多数行人在我们的分析中乘坐〜18米，以1.4米/秒的速度。

在图7中，我们共用了同一2,404观察的二维散射图，但现在具有第二个测量。在该图中，平均速度测量（X轴）绘制在交叉（y轴）的同时行驶的行人行驶的距离。

此绘图还具有第二分类器，其频繁地识别（“公共”）或不经常（“罕见”）的值。使用两个分类器（包括先前的幅度分类器），蓝点代表典型的行人穿过街道（“常见和中等”值），黄点表示非典型，但不明显的方式，交叉口（“稀有适度的“值”，粉红色点表示明显罕见的方式，越过“罕见和极端”（如冲刺或慢慢地走过大交叉点）。这里的调查结果包括大约18米的速度〜18米的大型行人速度〜1.4米/秒的速度。

让赌注添加第三个测量，进入三维场景：“空间”。

图8.包括交叉时间持续时间的三维散点图告诉我们行人交叉速度，行人穿过街道的时间，以及行人交叉路的宽度。

以前的可视化由与之前相同的2,404个观察，但是这次增加了第三个测量：行人在街道穿过的时间。添加了3D透视图支持不一定反映在我们之前的分析中的直觉，例如较长的距离速度越慢的观念通常需要更多时间。它还使场景空间，如粉红色的“稀有和极端”空间，更可观的切实。下面的图9中的可视化突出了“常见和中等”交叉口的蓝色变化空间中的大部分值：

图9.上面的蓝色，“常见和适度”的方案使能像模拟等团队，以创建镜像真正的行人过境的“常见和中等”的测试集。

然而，我们可以采取额外的测量，进一步定义“穿越街道”情景，并提供更丰富的洞察力。什么样的是分析四维和超越的场景？

图10.这一七维方案可视化是一个窗口，进入越来越精细的粗糙场景“指纹”，进入浮出界面观察的过程。

场景可以包含许多以上的测量。图10，上文，可视化七维“情景空间”，由横跨街道的行人2,404个观察组成，但这一次额外的测量值包括最高的行人速度，最小行人速度，最近的行人距离，以及SDV的最近的行人距离，以及最远到SDV的距离添加到以前的3D可视化。“N”尺寸方案空间的形状几乎可以在每个阶段通知SDV开发工作流程，包括选择用于标记和机器学习的正确数据，开发镜像真实世界的模拟，并创建数据驱动的安全要求。

对情景的观察到达了多少？

你需要多次看到人们在你面前过街道真正了解他们是如何做到的？要接近这个问题，我们采用了错误统计数据的置信区间和边际。下面的图11中的三个图表说明了应用于平均行人交叉速度测量的这些统计数据。

图11.三个绘图的进展图表观察，置信区间和误差的边际，让我们更丰富，更细微的统计洞察对我们的“行人过境街道”情景。

第一个图表显示了所有2,404个平均行人速度的原始曲线，按照它们收集的顺序。

图11中的第二图显示了95％置信区间（粉红色虚线）内的这些速度的累积平均值。请注意，与额外观察的置信区间“收紧”。

作为置信区间收敛，估计的误差幅度减小，如第三曲线中的可视化。在2,404观察中，平均交叉速度的估计为1.39米/秒±0.014，置信度95％。

鉴于错误统计数据的置信区间和边际，我们如何知道多少观察到达？这取决于测量的内容和所需的错误水平。有趣的是，在平均行人交叉速度的大约1,000个累积观察中，误差的边际接近其最低水平，才达到0.02米/秒。如果这个错误的余量是可接受的，那么未来1,404观察结果并不严格到达答案。

这个数字并不完美。例如，这些测量基于与地理和时间选择偏压收集的一个邻域中的312英里的样本（即，邻域未在所有时间观察到并且均匀地）。例如，没有观察到夜间或周末过境。另外，“罕见”的交叉尤为重要，无法理解，但可以特别难以捕获（因为它们......罕见）。但是，“罕见”值的误差也可以计算出来，告知必要的观察数，收集为它们的统计学意义。

数据挖掘权力自主组织

数据挖掘和分析加速了自主组织的开发，在我们的案例中，SDVS。通过为机器学习模型提供系统和多样的训练示例，为安全案例和系统工程开发提供统计上显着的测量，数据所开采的方案是一个战略数据资产，为研究人员提供了模拟现实世界情景所必需的信息。雷竞技是骗人的

SDV开发中数据挖掘的应用延伸超出场景测量。例如，它用于收集停止标志（非移动基础设施）的观察以及收集任何移动演员的观察（例如踏板车上的人）。它还用于挖掘联网车队之间的新型数据。想象一下，只有数百万车辆穿过街道的行人的独特例子，直到对所有地方和时代（包括稀有和极端类型）的每种措施有足够的观察到电力统计显着性。喜欢从沙子筛选黄金，数据挖掘筛选数据“黄金”为SDV开发，促进安全，可靠的自动运输，为流动性的未来发电。

了解有关Uber ATG的工程和数据科学工作的更多信息：

鸣叫99.

分享12.

投票

whatsapp.

111.分享

Uber ATG内部的数据挖掘操作：确定机器学习规模的真实道路情景

开车去观察行人

数据挖掘方案“行人过于街道”

分析“街道的行人”情景

最快和最慢的行人

对情景的观察到达了多少？

数据挖掘权力自主组织

没有帖子展示

受欢迎的文章

米开朗基罗:Uber的机器学习平台

引入面向领域的微服务体系结构

优步的大数据平台：100多个Petabytes，分钟延迟

为什么优步工程从Postgres切换到MySQL

H3: Uber的六角形分层空间索引

介绍Ludwig，一个无代码的深度学习工具箱

优步工程技术堆栈，第一部分：基础

介绍ARESDB：优步的GPU动力开源，实时分析引擎

Uber的预测:简介

介绍基础网络，优步的建立网站的新设计系统......

在我们的技术日展示优步背后的工程

大规模检测滥用:Uber Engineering的位置敏感哈希

经常性神经网络的Uber工程极限预测