摘要
在用于在线产品提供和营销策略的机器学习应用程序中,通常有数百或数千个功能可用来构建这样的模型。特征选择是多目标应用中的一种基本方法:通过剔除无关特征提高预测精度,加快模型训练和预测速度,减少特征数据管道的监测和维护工作量,提供更好的模型解释和诊断能力。然而,从一个大的特征空间中选择一个最优的特征子集被认为是一个np完全问题。mRMR(最小冗余和最大相关性)特征选择框架通过选择相关特征,同时控制所选特征内部的冗余来解决这一问题。本文描述了在优步的营销机器学习平台上扩展、评估和实现分类问题的mRMR特征选择方法的方法,该平台能够自动创建和部署大规模的目标和个性化模型。本研究首先扩展现有的mRMR方法,引入非线性特征冗余测度和基于模型的特征相关性测度。然后对8种不同的特征选择方法进行了广泛的实证评估,使用一个合成数据集和三个优步真实市场营销数据集来涵盖不同的用例。基于实证结果,将所选mRMR方法应用于营销机器学习平台的生产中。给出了产品实现的描述,并讨论了通过该平台部署的在线实验。
作者
会议
DSAA 2019
论文全文
“营销机器学习平台的最大相关性和最小冗余特征选择方法”(PDF)
产品平台
评论