大数据人工智能人脸识别,技术真的能阻挡黑产脚步吗

“2011年至2015年,五年共造成经济损失550亿元,” 通付盾创始人董事长兼CEO汪德嘉,在一本财经举办的“2017消费金融CRO全球峰会”上称,看看中国黑产的规模,就知道反欺诈有多难。

大数据、人工智能、活体识别、人像比对、设备指纹、人脸识别……大量的风控技术,都开始运用到场景之中。

技术真的能阻挡黑产脚步吗?

01 五类信贷资产

我们总结2017年整个中国信贷市场上信贷资产的特点,可以分为五大类:

1、线下消费贷。以场景风控为核心,比如捷信,拥有几万人驻扎的门店。通常经营标准化的3C、家电产品等。它的优势是,因为有消费场景,所以风险相对可控;但需要大量的地面人员,门槛相对高。

2、线下信用贷。通过门店去获客,比如车主贷、白领贷等等。这类特点是通过门店、信贷员去获客,做初步审核,然后加上中央的集中风控,是比较典型的“信贷员模式”和“信贷工厂模式”的结合。

这两类玩家相对比较多一点。

3、抵押贷。比如车抵贷、房抵贷等,以抵押的形式控制风险,风控也偏向传统,是很多传统金融机构开展的业务。

4、线上小额现金贷,Payday。

5、线上大额现金贷。

不管是线上还是线下的现金贷业务,都是在2015年才开始有比较大发展。payday这种模式,在2015年中旬起步,随着一些公司的快速扩张,迅速兴起。这类模式的特点是,额度特别小,利率相对高。

为什么很多人会做payday呢?

因为很多机构是偏互联网出身的,payday更多是强调高利率来覆盖高风险,通过快速的风控迭代,保证存量用户,就能产生利润。

线上的大额现金贷,跟payday相比,最大的特点是借款额度相对大。这时,机构就没有足够资金或风险忍受度,能在在几万、几十万甚至上百万的用户中测试。

所以,这种模式更多是通过定向邀请白名单用户来做。比如微粒贷,是把高风险、高利率的小额现金贷,往更高的额度、更低利率、更长的期限来扩展。

目前,受限于种种的因素,从事的大额现金贷的机构相对少一点。

02 风口浪尖的payday

未来,什么样的信贷资产更加符合这个时代的发展潮流?

从去年监管出台,20万借款限额出现后,两类业务发展的特别快:一类是车抵贷,一类是payday。

payday,它的优势是能快速积累用户,最大的特点是必须有足够的流量,通过大量“新客户变成老用户”的沉淀来建立信贷体系,可能风控更依赖催收去做。

这个行业过去一年半发展非常红火,竞争很激烈,也存在很多问题,比如政策风险,还有共债严重。

从数据来看,2015年下半年,payday共债率大概百分之三四十,但一年半后,如今共债率涨到百分之九十以上。

这个行业竞争激烈,因为它相对来讲门槛低一点,竞争激烈在所难免。

payday的这些人群到底是不是只申请payday呢?是不是可能里面也有相对好的人群会申请利率更低金额更大的产品呢?从百融的数据来看,基本上印证了我们的观点。我们发现payday产品的申请人还去申请别家产品的payday比例挺大的,30%左右,比信用卡等一些利率更低的产品比例要高。

03 白名单

但其实很多人也都想到这一点,问题在于如何找到这类优质人群呢?如何避免被欺诈团伙盯上呢?

我们做了一些尝试,通过邀请制的方式,先找出比较好的客户,定向去邀请。通过这种方式,一方面尽可能避免被欺诈团伙盯上,另一方面还保证比较好的用户体验。太阳底下没有什么新鲜事,其实这个思路也并不是独创。传统信用卡会有联名卡,本质是认为某一类场景下的用户就是资质比较好的客户,通过预筛选把风控前置,不管是主动邀请被动触发,都能解决用户体验和风控的矛盾。

预设白名单,一方面能改进用户体验,更快进行额度定位、审批;对于信贷机构而言,能够做到风险前置,避免风险后置的矛盾。

未来的信贷可能是拼图式的,需要四块拼图,第一是资金,第二是风控能力、技术、系统,第三是流量、获客,第四是数据。所以未来任何机构之间的合作,各家的核心能力不同,把拼图拼到一块,搭建一个更好的生态。

风控从另一个维度看,就是客户关系的管理,流量就是获客,精准营销就是获得流量。真正做好金融,就是要做好精准的风控。什么是精准风控?就是技术+数据+人工智能。

在中国用手机号做欺诈,团伙的规模到金额,触目惊心。2011年至2015年,五年共造成经济损失550亿元,2016年电信欺诈,仅上半年就立案近百万件,造成损失逾两百亿元。

为什么会发生这种情况?一是海量数据泄漏;二是新型欺诈行为更多是通过“人机对话”,有很强的隐蔽性;三是诈骗手段翻新速极快;四是金融欺诈逐步形成了包括上、中、下游结构完整黑色产业链,增加了风控的难度。

举例说明,黑客非法获取用户个人信息,数据拿到后,大量二道贩子在中间赚取差价。每个环节每个人分工十分明确,甚至有人会专门去联系相关的培训机构或诈骗团伙,从而把手上的数据卖到下游。而下游这些团队,有专人负责诈骗的话术编写培训、线上通过第三方支付平台洗钱、线下ATM机提款等,分工十分明确。

因此,企业做反欺诈不可能孤军作战,一定要一帮朋友,打群架的时代,有朋友、有渠道、有信息,才能把反欺诈做好。

从移动金融风控整个链条看,我们关注几点:一是账号,二是应用APP,三是业务,即欺诈风险和信用风险。形成一套产品,把风控防止前置,做到多维度,态势感知,以及风险信息共享,只有这样才能做到更精准的防控。

目前互联网金融应用都以APP的形式存在。对黑客来说,只要有漏洞,就可以伪造交易,窃取用户的信息,从而利用这些信息来骗贷。因此,一定要对APP进行检测,看是不是有病,是否健康。

如何对APP进行检测?我们的做法是把移动互联网上所有的APP、安卓、IOS都集中起来放在一个库里。再用不同的维度进行分析,从伪造、密码、弱点、内容等角度扫描。黑客一旦通过APP发到云端,我们立刻就能知道他的具体位置,从而帮助破案取证。现在也有许多公司利用人工智能做风控,我认为人工智能的算法不重要,重要的是样本。例如向C端提供反欺诈机器人,可以看手机是否健康;通过深度学习技术智能分析各行业风险,打造全场景风控策略。这些都是很好的尝试。

01 数到用时方恨少

我讲两个部分,大数据风控困境和突围。首先,第一个问题,数据是不是越多越好?

我们认为在数据质量可控、数据质量有保证的情况下,尽量引入更丰富、更多元化的数据加入到模型中,对模型提升是非常重要的。

随着互联网的普及,1994年到2004年的十年期间,语音识别领域,语音识别的错误率下降了一半,机器翻译准确度提升了一倍。其中,20%来自于算法的提升,80%来自于数据量的提升。通过这个例子大家可以看到,数据量决定了可能的上限。

纵观中国整个数据积累的情况和成熟度,我们对这个市场并不是很乐观。目前数据共享问题并无有效的解决方案。所以基于在征信、大数据风控领域的经验,我们观察到“数到用时方恨少”是非常普遍的现象。第二个问题,什么样的数据更优质?

在探讨这个问题之前,我想解释两个概念。第一个概念,什么是大数据?

大数据其实一定要具备三个特点,一是量大,二是多元性/多维度,三是即时性。百度地图的数据就具备这样的特点。

另外一个概念还需要解释一下:原始数据和加工数据的区别。

很多公司之间的客群、抓取数据的方式、手段和维度都是类似的,但为什么风控表现参差不齐呢?其实这个道理很简单。这些数据提供方,包括这些数据使用方,在“特征工程”阶段的能力不一样。

如果说数据量决定了模型的可能上限,特征工程的优劣决定了模型的实际上限。

不同的特征工程对模型效果的差别是非常大的。举个例子,2016年6月,大数据分析竞赛平台Kaggle,上线了全球最大的酒店预定网站Expedia 的“酒店预定预测比赛”。

这项比赛主要是要求参赛者基于Expedia提供的用户的历史搜索数据来预测客户最终会预定哪一个酒店,共有1974个队伍参赛。

最终比赛结果评比标准为平均精确值(Mean Average Precision),值越大说明模型预测的精度越高。

我们以最终排名前15位的一个团队的特征工程步骤为例。在第一阶段,团队做了较为简单的特征工程处理,最终得分0.04。第二阶段,团队进行了精进的特征工程,最终得分0.28。模型效果提升达到了6倍。由此可见特征工程对模型效果的影响是非常明显的。

特征工程无非是从大量的噪声数据里面筛选出可用的、有价值的特征。自从互联网诞生以来,就像我们在录音的时候产生大量的噪声一样,产生大量的垃圾信息。如何从这些海量的数据里面筛选出可用的、高效的特征,其实就是考验一个建模能力的过程。

所以关键的步骤有两个,第一步,数据清洗;第二步,特征变量的加工。

那么,是不是召集一个技术非常强大的团队,全部是由博士和统计学的硕士组成的团队做出来的模型一定是非常好的?这里有思维误区,特征工程其实优劣与否,不只是基于一个理论知识,更多是对于业务的理解。

举个我前东家的例子: Discover信用卡反欺诈做得好在业内是有口碑的。第一代反欺诈模型是vendor模型(外包模型),是由包括FICO在内的顶尖数据公司模型团队搭建的。

经济危机后,美国监管机构要求金融机构能够解释自己的模型,由于模型是外包的,我们对于模型的解释性是非常受限的。只有通过自建模型才能解决这个问题。

所以,一个成功的风控团队不只是建立在扎实的理论知识基础上的,更需要对业务的深刻理解。

那有人会问了,我花重金请一批既有技术又懂业务的大牛,这个问题不就解决了吗?答案也是否定的。

在未来,新数据源和新特征的获取会越来越难。模型的精度并不是随着特征的增长而线性提高。随着人工特征工程的深入,投入的人力和时间越来越长,得到的新特征对系统的提升却越来越少。换句话说,人力投入的边际收益是递减的。

再举个IBM 沃森的例子。IBM 沃森具备很强的语音分析能力,可以像谷歌的搜索软件一样,迅速搜索自己巨大的知识库找出答案。美国有一个比较知名的公司,以沃森作为实验,所有这些点都是实际的人类参赛点的表现,跟计算机的表现完全不在一个量级上面。

边际效益递减达到一个边际的时候,怎么对模型和策略进行优化?

我认为有两个方面:一方面,经济学上的Gilder's Law,是说尽可能多的采用便宜的资源,尽可能节约贵的资源。另一方面,在特征工程达到效益边际之后,就需要在算法和模型上做进一步的优化。如图所示,2个上限,1个途径。

数据源与数据清洗是决定了这个模型能达到的可能上限,特征变量加工是决定了模型的实际上限,最终模型与算法的提升是接近上限途径。

但在模型和算法提升的过程中,也有一个误区。如上图所示,随着训练样本的迭代,训练误差越来越低。但同时在认证样本上的误差达到一定复杂程度的时候会增高,这就会出现一个问题。

如何从全局观,通过模型和算法提升整体决策效果,将成为下一个风控难题。

总结来看,大数据风控面临四大困境:数据资源壁垒,自有数据累积,数据特征提炼,算法模型提升。

02 既要用“术”也需得“道”

那么,这些困境有没有解决方案?

以市场营销为例,解决这个问题,可以通过智能推荐的算法方式对客户进行精准的评判。

以一家信用卡公司的客户触达策略为例,当接通任一用户的电话时,客服代表的系统上会提示客户的基本画像,可推荐的产品列表及预测的购买概率,方便客服代表进行沟通和推荐产品。系统背后有多个主题模型,用来预测各个主题的产品的购买倾向,并最终给出推荐产品的排序和组合。

重要的是,这些主题模型的建立,是根据真实的历史数据训练出来的。而这些历史数据的积累是有着严格的实验设计规则的。

由于模型评分Top 20%的人响应率为34%,因此预计200万客户中会有约68万人开卡。而如果没有该模型,随机发送(响应率10%),需要发680万人才能达到相同的开卡量。

因此仅该营销活动,就为部门节省480万营销预算(近70%)。

说到反欺诈,可以说目前的互联网反欺诈离不开文本挖掘,最重要的是语义识别,其次是图像的挖掘。但是二者问题都是投入大,突破小,极易遇到瓶颈。

机器学习,数据挖掘等是大招,当对不良内容其他的方式都难以识别的时候用机器学习的方式效果最好。缺点是见效慢,维护成本大,样本的收集工作量大等等。但是一旦机器学习到达一定程度,会是最好的反欺诈手段。

以上说的都是“术”,都是被动的去处理问题,而真正想把反欺诈做好需要的是“道”。

也就是产品模式的突破,信用体系的搭建,从源头使欺诈的门槛高于欺诈的收益,才会最终杜绝欺诈。这也就是反欺诈领域里所有人努力的目标。

随着网络上意见型数据的爆发,情感分析也被广泛研究和应用。目前常见的情感极性分析方法主要是两种:基于情感词典的方法和基于机器学习的方法。

但情感词典存在着一定弊端。词典把所有常用词都打上了唯一分数,有许多不足之处:一是,不带情感色彩的停用词会影响文本情感打分;二是,由于中文的博大精深,词性的多变成为了影响模型准确度的重要原因。再有就是,同一个词在不同的语境下可以是代表完全相反的情感意义。

尤其是在中介言论识别方面,是否能够准确的对漏洞的大小进行衡量,是平台的核心。

在反欺诈和平台舆情风险管理方面,我们ZRobot有非常多的尝试。我们从丰富的舆情来源,包括网络上面的涉黑论坛、黑产、中介信息进行了文本分析、语音分析,能够为客户提供像风险预警、漏洞纰漏以及防控建议。我们对情感分析也做了大量的研究。

我们也通过机器学习的方式在这方面有了大量的尝试,通过这个方式可以判断中介的一些言论,关联到他对这个中介表达出来的风险漏洞到底有多大,做出精准的评判。

最后,我们还换了一个角度去看社交网络数据,通过全局的观点对整体网络做了一个评判。这也是我们目前自创的一个技术,叫做漫网技术。

THE END
0.科技资讯AI速递:昨夜今晨科技热点一览丨2025年8月16日王兴兴回红星资本局:过去10年犯的最大错误是低估了AI的技术进步 宇树科技创始人王兴兴在机器人运动会夺冠后表示,过去10年最大失误是低估AI技术进步速度。他坦言虽对AI持乐观态度,但实际发展远超预期,强调AI将推动整个机器人行业突破。王兴兴透露公司正推进全自动搬运等场景落地,预计明年实现工厂部署。他呼吁行业保持对jvzquC41pg}t0|npc0io1;547/69/:;1fgzbku2kphsdojy82:895>3f0jznn
1.2025年8月人工智能投融资观察·极新月报8月21日,L4级自动驾驶企业白犀牛近日完成了B+轮融资。至此,白犀牛的B轮融资总额累计近5亿人民币。本轮融资中,老股东顺丰、线性资本继续跟进,以骏资本、三六零基金、华泰紫金等机构也加入成为新股东。 据悉,本轮资金将重点投向车规级无人车产品研发、AI技术的持续迭代和商业场景的拓展等三大领域。值得注意的是,jvzquC41yy}/k‚nqw0ipo8sgyu532;:2;36239<;77
2.数字监控+超高转换率,微星MEGAi1000PPCIE5战神全模组白金牌电源作为首批上市的ATX 3.0标准电源产品,微星MEG PCIE5系列电源最先上市的是微星MEG AI1300P PCIE5产品,上市时我们也对此款产品进行了较为详细的评测。而微星MEG Ai1000P PCIE5战神则是额定1000W的80PLUS白金牌电源产品,功率上低一些,但是同样拥有微星MEG PCIE5系列电源所有的技术,以及产品亮点,而且价格也更为亲民,那jvzquC41fk/rltpnktf0lto0et03?:713<67>9860nuou
3.牢记官网大片在线观看k34h.ccm最新版本更新内容看看这项AI技术 小聪明坏大事?印度经济走弯路说白还是太“短视” 曝曼联妖王推迟续约谈判他担心索帅带队没希望 地球大气延伸超越月球轨道!探索系外水星球的新希望 北京大兴机场明日试飞:要验证哪些飞行程序? 谁能超越哈登的疯狂得分秀?他可能在上幼儿园 舆论漩涡中的特斯拉:1600辆车被海关扣下 卡哇伊36分字母6犯jvzq<844;2=40xqxvd|b0ls1
4.投入千亿流量扶持,百亿厂货补贴!京东双11为商家带来新增长在9月用AI技术帮商家实现长期高质量增长 从此次京东双11商家生态大会公布的内容来看,这不只是一次大促规则的简单发布,更是过去一年京东为营造高效、优质的商家经营环境,所做出的成果展示。 值得注意的是,京东在会上宣布其升级了商家后台系统“京麦”。为了让商家更轻松地管理店铺,同时实现降本增效,京东为商家提供了多款免费jvzquC41zwkrk~3eqo542;;;68>:688275814;6
5.freeHD❌❌❌HD0131目前,智谱已把商业化团队打散为“区域制”项目组,专攻政务大单,C端投放踩刹车,2025年其大模型清言App几乎停掉大规模投放;技术路线也开始变“窄”,过去是全栈自研,如今资源都集中到GLM-Z1、GLM-4-Air两条主线。 这转型的本质说白了就是: 不能只靠AI技术赚钱,也要更加依靠人工赚钱了。 人工智能变成了:人工+jvzq<847i0rjcxskpi4df|x|yjm/exr1nptfy|4858?12A80jvsm
6.重磅量化监管落地!影响有多大胡羿更直言,AI技术也是未来主要的发展方向,挖掘更多数据集蕴含的潜在信息,提升量化策略迭代效率,这都会为公募量化策略研发带来增量。“上面两点其实我们一直在做,也就是‘AI+HI(人机互动)战略’”。 此外,在量化产品发展上,指数增强型产品、结构化创新产品、被动指数产品都将有广泛的市场需求与发展空间。 jvzquC41uvudm762lsqb0lto0et0497624861l;775652B:0ujznn
7.小舞3D被❌在线观看在本届展会上,一系列硬核科技产品集中亮相:支持夜间全场景作业的自动驾驶系统、基于AI视觉的智能农用机器人、适应复杂地形的履带式智能运输车以及通过高性价比光谱检测与AI技术实现精准诊断的“工具箱”……这些多元化的创新科技,共同为农业高质量发展注入了崭新动能。 “在农高会期间,我们能直接接触到来自全国各地的jvzq<847i0wjpƒmqw0ieu|yji4dqv4s|pkxu88494:16<3jvor
8.百度用AI赋能基层医疗,回答科技向善实现途径这就是“循证”的价值所在,从技术角度看,这样的循证AI能力,主要基于深度NLP、知识图谱等能力,让AI医疗解决方案变成可解释的“白盒”。 基层医疗不应该被看作AI医疗的“垂直领域” 虽然百度AI医疗选择赋能基层医疗作为突破口,但是,这种做法却不能按互联网通常所说的“垂直领域”来解释。 jvzquC41yy}/srfplkg/exr1|jolg8mvon532:>/34522h6948:/j}rn
9.《生化奇兵:无限》中的“伊丽莎白”,为什么会如此“逼真”?于是,他们建立了一个叫做LIZ Sqaud团队,里面包含了各种程序、美术、企划共13人,来一起确保伊莉莎白的AI在游戏中能给予玩家他们想给予的最佳体验。简单来说,他们要想办法让伊莉莎白更人性化,那接下来要正式讨论伊莉莎白的AI了。 为了让玩家能够确切感觉到人性,伊莉莎白被设计成可以跟环境互动的角色,而且还能够在适合jvzq<84enwh/ijrgtuqz0lto1o5be}nxkv07:87:8
10.高起点,高质量,踏上健康中国新征程交锋三:AI、5G等新技术迭代升级如何驱动分级诊疗有效落地? 健客交锋 3.2万 阅读 1年前 原创 交锋四:从“治”到“防” 互联网+分级诊疗的未来图景 健客交锋 4.1万 阅读 1年前 原创 警惕生育率“跌跌不休” 医健联动如何止跌还涨? 健客交锋 5.2万 阅读 1年前 原创 交锋一:生育医疗现状如何?妇科、jvzquC41yy}/ew2jgcrujlftg0ipo8ftvkimg87243632;4eqpzfp}2772::77mvon
11.如何发力微短剧布局新质生产力?这场万人规模大会说明白了未来,上海广播电视台将加快AIGC在媒体领域的创新应用,加快超高清视听能力建设,加快传统广电底层技术迭代升级,强化媒体数据资源挖掘利用,大力培育发展媒体新质生产力,努力实现媒体发展质的有效提升和量的合理增长。 上海文化广播影视集团有限公司副总裁陈雨人 AI视频或将会成为决策新语言jvzq<84yyy4benu0qtm/ew4ulij04976265158y424:1698a48=39=80ujznn
12.东方财富财经早餐3月21日周四财联社:诺和诺德基金会(诺和诺德背后的企业基金会)日前宣布将与英伟达合作,在丹麦建造一台名为Gefion的AI超级计算机,该计算机将运行英伟达的AI技术,主要目标是发现新的药物和治疗方法,可供丹麦公共和私营部门的研究人员使用,预计该计算机将于2024年年底前做好试点项目的准备,并将安置在丹麦国家AI创新中心。 jvzquC41ycv/gjxvoqtf{7hqo1g049762582596:8:<5;<3jvor