开放采购流形,一种用于机器学习的可视调试工具

0.
开放采购流形,一种用于机器学习的可视调试工具

2019年1月,优步介绍了多样性是一种用于机器学习的模型 - 可靠性调试工具,我们用于识别我们ML模型中的问题。为了给其他ML从业者这个工具的好处,今天我们很高兴宣布我们有发布歧管作为开源项目。

歧管帮助工程师和科学家识别ML数据切片和模型的性能问题,并通过浮出来诊断其根本原因数据集之间的特征分布差异。在优步,歧管已经是我们ML平台的一部分,米开朗基罗,并帮助了Uber分析和调试ML模型性能的各种产品团队。

以来在Uber Eng博客上突出显示这个项目雷竞技到底好不好用今年早些时候,我们收到了对社区的大量反馈意见,这是其潜在的通用ML模型调试方案。在开放的独立版的歧管中,我们认为该工具同样将通过为ML工作流提供可解释性和调试性来使ML社区受益。

版本1中的新功能

在我们的第一个开源版本的歧管中,我们添加了各种功能,使模型调试更容易,而不是在内部迭代中。

版本中的功能包括:

    • 一般二进制分类和回归模型调试模型 - 不可知支持。用户将能够分析和比较各种算法类型的模型,使它们能够辨别出对不同数据切片的性能差异。
    • 可视化支持表格特征输入,包括数字,分类和地理空间特征类型。使用每个数据切片的特征值分发信息,用户可以更好地了解某些性能问题的潜在原因,例如,如果模型的预测丢失与地理位置之间存在任何相关性,并且其数据点的分布之间存在任何相关性。
图1.歧所新升级包括对地理空间功能的可视化支持。
    • 与jupyter笔记本集成。通过这种集成,歧管接受数据输入作为Pandas DataFrame对象,并呈现jupyter内的此数据的可视化。由于Jupyter笔记本是数据科学家和ML工程师的最广泛采用的数据科学平台之一,因此该集成使用户能够分析其模型而不会破坏其正常工作流程。
图2.歧管的Jupyter Notebook集成接受数据输入作为Pandas DataFrame对象,并使Jupyter Notebook UI中的可视化。
    • 基于每个实例预测丢失和其他特征值的交互式数据切片和性能比较。用户将能够根据预测丢失,地面真理或其他感兴趣的其他特征来切片和查询数据。此功能将使用户能够通过多功能数据切片逻辑快速验证或拒绝其假设。
图3.基于每个实例预测丢失和特征值的交互数据切片允许歧管从业者更好地了解ML模型性能问题。

下一步

歧管的开源版本配有NPM包版本而且,对于jupyter笔记本绑定,一个Python包版本。要开始,请按照文档github repo.并在本地安装,或者看看我们的演示网站

我们鼓励你尝试多方面为自己,期待听到您的反馈!

评论

没有帖子展示