由于优步越来越受到合法客户的普及和规模,它也引起了网络空间中的金融罪犯的注意。一种类型的欺诈行为是勾结的,用户之间的合作欺诈行为。例如,用户们通过用被盗的信用卡采取假冒旅行而康复(用于购买信用卡的银行发起的退款)。在本文中,我们展示了应用尖端深图学习模型的案例研究关系图卷积网络(RGCN)[1]来检测这种共谋。
图表学习方法已广泛用于欺诈检测[2]和推荐任务[3]。例如,在优步吃,已经开发了一个图表学习技术,以解决最有可能吸引个人用户的食物[4]。图表学习是提高我们在优步平台上的食品和餐厅建议的质量和相关性的方法之一。可以应用类似的技术来检测勾结。欺诈性用户通常是连接和聚集的,如图1所示,可以帮助检测。我们概述了一个关于关系图学习模型的案例研究,该模型使用这些信息来检测勾结用户,并使用不同的连接类型来改善学习。目的是在这种情况下分享我们的研究结果,这可以推广以解决其他相关的欺诈检测问题。本文开发的模型不用于优步生产平台。
关系图学习
我们在小型数据样本上应用RGCN模型来预测用户是否正在进行欺诈。在用户图中,有两种类型的节点:驱动程序和骑手。驱动程序和骑手可以通过共享信息连接。每个用户可以在图中被视为节点,该节点由嵌入的向量表示。此表示编码用户及其邻居社区的属性,并且可以轻松用于机器学习任务,例如节点分类和边缘预测。例如,要检测用户是否是欺诈性,而且我们不仅使用了用户的功能,还使用来自几个跳中的邻近用户的功能。该模型基于在图形上运行的神经网络,专门用于模拟多关系图数据。已经显示出这种类型的图形学习导致节点分类的显着改进[5]。
一个平台上的用户通过共享信息彼此连接。我们发现不同连接类型之间的区分放大了欺诈检测的信号。因此,我们使用连接类型作为图形学习的功能。
为了更好地了解我们如何模型图形用户数据和检测勾结,它有助于了解RGCN的基础知识。图表卷积网络(GCN)已被证明在从结构化邻域的编码特征中非常有效[6],其中相同的权重被分配给连接到源节点的边缘。另一方面,RGCN具有依赖于边缘的类型和方向的关系特定的变换。因此,为每个节点计算的消息以边缘类型信息增强。图2示出了RGCN模型的图。模型的输入包括节点特征和边缘类型。节点特征将传递到RGCN层,然后通过聚合来自连接邻居的学习表示来转换为学习表示的向量。来自连接邻居的消息由边缘类型加权。具体地,模型通过加权和归一化总和累积相邻节点中的消息,将它们传递给目标节点以在一个RGCN层中学习隐藏的表示,然后将它们传递到激活功能(例如Relu)中。RGCN层可以通过消息传递和图形卷积提取高级节点表示。 With a softmax layer as the output layer and cross-entropy as the loss function, RGCN models are able to learn node scores.
变换后的相邻节点的特征向量依赖于特定于边缘的变换,这些变换记录了边缘的类型和方向。单个自连接作为一种特殊的边类型添加到每个节点上,以便在层上表示节点L.+1也可以通过层上相应的表示来表示L..在图层计算的消息L.+1可以表示为
在哪里H一世(l)是节点的隐藏表示一世在L.- 神经网络层,NR.一世表示节点的邻居指数集一世使用边缘类型
那W.R.是边的重量类型吗R.那W.0.是自我循环的重量,还有C我右是常规的常量。传入消息累积并通过元素 - 明智的激活功能传递
,我们使用Relu(·)= max(0,·)作为激活功能。
欺诈检测的RGCN
有多种风险模型和几种检查点来检测优步的欺诈性用户。为了潜在更好地服务这些风险模型,一个想法是派生欺诈分数,并将其用作下游风险模型的特征。RGCN模型为每个用户输出欺诈分数,指示用户的风险。这欺诈评分学习流程如图3所示。学习图表中每个节点的隐藏表示,以通过最小化二进制交叉熵损耗来预测用户是否是欺诈性的。用户可以是驱动程序,骑手或两者,因此我们输出两个分数:一个用于驱动程序和一个用于骑手的分数。两分数被注入下游风险模型作为两个特征。
我们使用两个输入源:节点特征(用于用户)和边缘类型。内存中的驱动程序-骑手图是使用DGL库[7]。欺诈的标签是用户是否在一个时间范围内退款。我们用工程学来帮助模型学习。例如,一个司机-骑手图有两种类型的节点:司机和骑手。每个节点类型(驱动程序或附加程序)可能具有不同的特性。为了解决这个问题,我们使用零填充来确保输入特征向量具有相同的大小;其次,我们明确定义了边缘类型,并在模型训练中学习每种类型的权重。
为了评估欺诈分数的RGCN模型性能和效用,我们在历史数据上培训了4个月长度的历史数据,直到特定的分裂日期。然后,我们从分割日期后的6周测试了数据上的模型性能。具体来说,我们为用户输出欺诈分数并计算精确度,召回, 和AUC.在实验中,我们通过在现有生产模型中添加两个欺诈评分特征,观察到准确率提高了15%,假阳性的增加幅度最小。这两个欺诈得分在下游模型的200个特征中分别排在第4和第39位。
数据管道
数据摄取
在以前的博客帖子与优步吃的食雷竞技到底好不好用物发现[4],我们解释了如何利用我们的离线图生态系统来生成城市级用户餐厅图。在此用例中,我们的要求是建立一个巨大的图形而不是几个较小的城市级图。我们重用了像Cypher上的许多组件,以生成多关系用户图。我们的摄取框架将源蜂窝表转换为节点和关系表。节点表捕获用户特征,而关系表捕获用户之间的不同类型的边缘。
图形分区
大尺寸的图表使得有必要使用分布式训练和预测。初始图形被划分为几个较小的图形,使得它可以适合工作机器的存储器。我们唯一对最近使用过UBER平台的用户的X-Hop子图感兴趣。然后随机分配了这些最近的“种子用户”(0到N)。每个种子用户的X-Hop子图也被拉入相同的分区。用户可以是多个分区的一部分,或者休眠用户可能不在任何分区中。每个分区都映射到训练/预测工作台。
我们增强了Cypher语言以添加图形创建的分区子句。下面的示例查询将自动生成分区列拆分的多个图形。每个分区都包含种子用户及其一跳邻居。
超级节点
对图形生成过程的巨大挑战正在处理超级节点,这是一个具有极高的连接量的节点。我们在两个阶段管理这一点。首先,在创建关系表的同时,我们过滤具有高连接度的实体。例如,由1000个共享实体连接的两个用户将导致10002用户用户关系。但是,我们确实将计数添加为节点功能。其次,在图形分区阶段,有一些用户在其子图中具有非常高度的不同关系。这增加了分区大小的方差,其中一些分区非常大。根据阈值,我们将这些用户限制在他们的前几个跃点。可以使用规则跟踪这些异常值案例。
培训和批量预测
数据流水线和培训管道如图5所示。在管道的第一步中,数据从Apache Hive表中拉动,并将HDFS摄入为包含节点和边缘信息的木质文件。每个节点和边缘都是由时间戳的版本化的。具有最新的节点和边缘属性的图表被保留给定特定日期并使用Cypeher格式存储在HDF中。通过在Apache Spark执行引擎中使用Cypeher查询语言送入模型之前将图分区。图形分区直接进入DGL培训和批量预测应用程序。生成的分数以蜂窝形式存储并用于actioning和离线分析。
未来发展方向
图表学习在学术界和工业中受到广泛的关注。它提供了欺诈检测的令人信服的方法。虽然图表学习导致检测质量和相关性的显着改善,但需要进一步的工作来增强我们系统的可扩展性和实时。特别是,我们正在探索一种更有效的方法来存储大规模图形并进行分布式训练和实时服务。此外,由于驾驶员骑行者图表密集地连接,以使消息传递更高效,我们将探索基于关注的图形模型,它利用屏蔽的自我注意层并分配对邻域中不同节点的不同重视。例如,图表关注网络[8]以及参加距离邻居[9]的进一步扩展与我们的应用相关。
致谢
优步AI,Ugraph和市场风险团队为实施和实验提供了资源和支持。感谢您在项目开发期间QIFa Ke,Long Sun和Santosh Golecha的一致支持和指导。
参考文献
- Michael Schlichtkrull,Thomas N. Kipf,Peter Bloem,Rianne Van Den,Ivan Titov,Max Welling,使用图形卷积网络建模关系数据,ESWC 2018。
- 刘子奇,陈朝超等,异质图形神经网络用于恶意账户检测,CIKM 2018。
- 雷克斯莹,破坏了他,凯峰陈,庞埃克萨伊,威廉·汉密尔顿和朱汇莱斯科维克,图表卷积神经网络用于Web级推荐系统,kdd 2018。
- Ankit Jain.,艾萨克刘,安克尔萨尔达和皮埃罗·莫里诺,用优步食品发现:使用图表学习电力推荐.
- Taherehpinghabibi,Kok-Leong Ong,Booi H.Kam,Yee Ling Boo,欺诈检测:基于图形的异常检测方法的系统文献综述,决策支持系统2020。
- 托马斯N. Kipf和Max Welling,具有图形卷积网络的半监督分类,ICLR 2017。
- Minjie Wang,Lingfan Yu等。,深图库:在图表上实现高效和可扩展的深度学习,ICLR 2019。
- Petar Velickovi, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, Yoshua Bengio,图关注网络,ICLR 2018。
- 张凯,朱耀康,王军,张杰,图形关注网络的自适应结构指纹,ICLR 2020。







