结果分析
Ablation Test
以下列举的是利用本案例中提出的几个方法,利用图数据库进行黑产检测,得出的一些结果。
方法
规则
关联CC数量
关联账户数
关联订单数
(1)
CC 深度 > 5
103
18735
1691
(2)
CC 订单数 >= 10 and 非对己订单比例 > 0.5
59
12653
1090
(3)
CC 账户数 >= 30 and 设备共用率 > 2
11
3377
334
(4)
CC 账户数 >= 30 and 基尼系数 < 0.1
257
20920
1848
(5)
1 个 IMEI 关联账户数 >= 3
4763
2869
(6)
1 个账号接受 >= 3 个不同账号的奖励
2391
2464
(7)
深度分析汇总 (1) + (2) + (3) + (4)
289
30054
2648
(8)
浅度分析汇总 (5) + (6)
5718
4396
(9)
深度与浅度分析汇总 (7) + (8)
33346
5430
(10)
排除基尼系数的方法 (7) + (8) - (4)
25760
5071
本次营销活动发出去的奖励约 80 万。比较保守估计,有 3 万多个黑产账户,产生了 6000 多笔兑换,每笔订单平均损失 50 元,总损失金额预估 30 万。
基于基尼系数的团伙识别方法需要进一步验证,如果排除该方法,估计有 2.5 万个黑产账户,涉及订单约 5600 多个,预估损失金额约 28.5 万。
利用图分析方法,由于可以做更深层次的关联,可以发现大量浅层分析检测不出的黑产账号。
有意思的发现
前面利用基尼系数来衡量黑产团伙的机器行为,实际上还有个重要的因素可以考虑进来,就是注册的时间顺序。下面用来个 gif 动图来呈现:
大家也可以思考一下,黑产采取这种策略的动机是什么?
后续思考
本次案例更多的是事后分析,事情已经发生了,损失已经产生了。在真实的生产环境中,黑产会对风控系统对干预做出应对。因此并不代表这上面检测出的损失,你都有办法完全避免。
在实时场景下,我们更关注的可能是,数据库的更新速度,查询的响应速度,每秒的并发量等,这点才是原生并行图数据库的真正用武之地。毕竟如果制作离线图分析的话,完全可以用一些算法包,或者一些基于其他大数据平台的图分析引擎来实现,譬如 GraphX。
实际上除了邀请关系之外,数据中很多关系没有使用到,譬如 IP 地址。然而在中国,因为大多数人使用的是动态 IP 资源,这意味着用户在断网重连时,IP 地址可能发生变化。一个 IP 地址可能前一个小时是黑产团伙在用,后一个小时就是一个正常用户在用,如果直接使用 IP 地址进行黑产团伙发现,可能产生大量的误报。如何利用这些信息,我们会在下一个案例中展开探讨。
最后更新于
这有帮助吗?