专访锘崴科技董事长王爽教授:隐私计算,可信的技术底座和安全基石爱分析访谈数据源算法

随着人工智能的广泛应用,各种问题也频频出现,如大数据杀熟、AI换脸诈骗、自动驾驶事故等,可信已经成为人工智能规模化发展的瓶颈。2022世界人工智能大会中设有可信AI论坛,邀请多位产学研界专家,交流人工智能技术安全与发展,探讨可信AI的挑战和未来。

隐私计算技术能实现全链路数据安全、隐私保护,并支持稳定性、公平性,是可信AI的技术底座和安全基石。为探讨隐私计算对可信AI的价值、隐私计算技术特点以及未来的发展趋势。 近 期,爱分析专访了锘崴科技创始人、董事长王爽教授,专访中王爽教授对隐私计算在发展可信AI中的价值、《数据安全法》《个人信息保护法》对数据共享流通的实际影响、隐私计算落地中面临的挑战、隐私计算厂商能力应如何提升等问题进行深度分析,并介绍了锘崴科技如何通过隐私计算技术和服务能力持续迭代,不断提升场景落地能力,以及锘崴科技业务优势、进展及未来规划。

锘崴科技是一家专注隐私保护计算技术的服务提供商,具备联邦学习、多方安全计算、同态加密、可信执行环境等多种隐私计算技术,能同时满足客户安全性、性能、精度等需求,并持续迭代研发,引领前沿,广泛赋能医疗、金融、保险、政务、安防等行业及场景。创始团队来自加州大学圣地亚哥分校(UCSD)等高校,团队成员多来自IBM、Google、Thermo Fisher等世界五百强企业。

王爽教授认为,隐私计算能从算法歧视、算法安全、隐私泄露、算法应用四方面帮助实现AI可信。未来隐私计算技术持续迭代,技术路线更加细分,将带来隐私计算平台产品安全性、性能、精度等多方面大幅提升;将构建形成规模化的隐私计算节点网络,隐私计算网络效应逐渐显现,将充分满足数据需求;隐私计算开放应用生态更加丰富,将覆盖更多行业更细分应用场景,实现数据价值自由流通。

01

隐私计算在算法歧视、算法安全、隐私泄露、算法应用四方面帮助实现AI可信

王爽教授:模型的鲁棒性、隐私安全、算法公平以及算法的可解释性,都是可信 AI 落地中遇到的问题。在解决问题的过程当中,隐私计算在算法歧视、算法安全、隐私泄露、算法应用四个方面帮助实现AI可信。

第一,算法歧视。算法歧视又包括非主观性歧视和人为算法歧视。非主观性歧视是由于数据源偏差造成的,比如AI 算法认为皮肤颜色深的人更有暴力倾向,是因为训练样本里有很多皮肤颜色比较深的样本。这种情况需要更多样本才能训练出公平的模型。

但如果要获取更多样本就涉及到数据源间的合作,需要打通或获取更多数据源。在遵守《数据安全法》、《个人信息保护法》前提下,传统中心化搜集数据的模式中,脱敏等方法越来越受到挑战,而且存在很多风险,这时就需要隐私计算帮助算法打通或找到更多数据源。

另一种歧视是人为的算法偏见,比如大数据杀熟,故意在参数里面加了参数,对高净值客户提高价格,这是算法使用不当。这也可以运用隐私计算,通过TEE 等技术实现对远程环境的验证,对人为修改算法建立事前防御、事后追溯机制,抬高大数据杀熟的成本。

第二,算法不安全,比如在自动驾驶场景下给目标加补丁,可能造成识别错误,比如AI在医疗辅助诊断过程,如果篡改算法或篡改病人信息,可能导致最终临床辅助诊断结果出现错误,危害病人健康。

针对算法不安全的情况,一方面可以通过隐私计算联合多中心获取更多测试样本发现算法中存在的问题,实现提前预防。另一方面,也可在模型部署阶段,通过可信执行环境保证算法安全。在可信环境中,输入模型的信息都需要加密,且信息的完整性、新鲜性都可以通过密码学来验证,保证整个临床辅助诊断系统在执行过程中是不可篡改的,如果篡改使用方可以拒绝。

第三,隐私泄露。如很多模型需要原始数据,比如人工识别的深度学习模型里会有模糊人像,通过一定方法可以恢复出模糊人像的具体身份信息。通过隐私计算做模型部署时,可以不传输原始数据仅传输参数,且对参数加密后完成部署,可以避免数据泄露且保证输出的只是最终决策的结果,使 AI 更可信。

第四,AI应用不安全。Deepfake合成人像和声音的功能可能被非法用于诈骗。这种情况可通过隐私计算对模型加密,仅在授权情况下才可以使用。

02

隐私计算可通过提升底层技术性能和上层应用效率,实现数据安全共享

爱分析:隐私计算落地过程中面临什么挑战?

王爽教授:隐私计算是新兴行业,所以在落地的过程中也面临着诸多挑战:

第一,大多数的数据源还是用比较传统的数据共享模式,比如脱敏、沙箱的模式。

第二,隐私计算数据节点网络搭建以及形成网络效应还需要时间。当有很多的节点数据源都有隐私计算能力时,隐私计算通过网络效应可以进行赋能。但是目前只有头部企业或机构会尝试用隐私计算,数据节点网络搭建需要整个隐私计算行业教育客户推动构建。

第三,多中心合作过程中存在数据治理问题。例如在医疗行业,不同的医院的数据的信息系统是不同的,需要对数据进行清洗、规划、治理以及设计通用数据模型,提高数据质量,实现不同信息系统间的数据价值流通。

第四, 现有法律法规不能指导落地应用。虽然《数据安全法》、《个人信息保护法》都已经颁布,但这都是上位法,具体在行业的落地应用时还需要隐私计算的企业联合专家、学者一起推行最佳实践,为医疗、金融、政务等不同行业制定相关的行业指南。

第五,隐私计算本身自己的能力也要不停地提升,创造出更多应用场景,开发出更多开放的应用服务整个行业。

爱分析: 隐私计算厂商能力可以从哪些方向提升?

王爽教授:我认为可以从底层技术和上层应用两方面来看。

一方面,通过底层技术实现安全性能的提升。比如同态加密从最开始的半同态只能支持加法或乘法,后来全同态可以同时支持加法和乘法。全同态又分成不同的技术路线,像BGV、BFA做整数的同态,CKKS做定点数的同态。同态加密技术逐步细化,持续在不同技术领域逐步提高相关性能。比如可信执行环境,从SGX1只能支持 128 M的内存,到现在 SGX2 能够支持1TB 内存,以及AMD的SEV、海光的 SEV技术都是在朝着更安全、更高性能迭代。

另一方面,上层应用也要根据市场的需求反馈融合不同技术。融合的过程中要根据用户对于安全性、性能、精度的需求选择合适的技术,解决实际业务问题。随着技术迭代,逐渐提升应用效率,应用广度。

爱分析:《数据安全法》和《个人信息保护法》生效,对国内医疗行业数据共享流通的实际影响是怎样的?

王爽教授:在立法出台之前,国内更多是数据拷贝的共享形式。《数据安全法》和《个人信息保护法》出台后,只有匿名化的数据才不受到法律的监管,匿名化的定义是不能回溯到个体,常用的脱敏手段处理后的数据并不等于匿名化。

如何实现匿名化,行业也在探索中,目前更多是行业标准,比如央行出台的政策指南,把多方安全计算应用到金融行业,比如卫健委通过隐私计算赋能跨境或跨多中心的研究。我们也参与了卫健委、工信部、公安部等各行业监管部门的标准制定,推动隐私计算在数据可用不可见的情况下完成数据共享。

03

深耕医疗场景,锘崴科技实现隐私计算技术和服务能力持续迭代

爱分析:医疗行业有哪些刚需隐私计算应用场景?

王爽教授:隐私计算在科研、药企、商业上都有很多应用,主要包括查询、建模、模型使用场景。

第一类是数据检索的需求。比如罕见病的治疗,由于缺少直接的临床诊断路径,需要通过相似病人匹配,在全国范围内找到具有明显效果的合适的诊断方案,给医生提供临床诊断支持。在匹配的过程中就需要通过隐私计算保护查询的条件、被匹配的数据源以及中间的匹配算法和返回的结果。

第二类是联合建模的需求。比如临床辅助诊断模型,需要根据基因变异位点跟疾病的相关性构建模型,通过模型预测病人得癌症的风险,对其进行早期干预。

第三类是模型应用的需求。很多厂商给医院提供模型时,会担心模型被泄露,这就需要隐私计算提供保护。有些 AI 模型在云平台上,使用方担心输入的信息被窃取,这同样可以通过隐私计算提供具备隐私保护的云 AI 服务。

爱分析:锘崴服务医疗客户的过程中,遇到挑战是什么?相应技术和服务能力有哪些迭代?

王爽教授:挑战随着时间在变化。早期的挑战来源于市场教育,刚开始做隐私计算时要向市场解释为什么要保护隐私。现阶段遇到的问题主要有三方面。

第一,数据源节点的建设不充分,不能满足数据需求。比如药厂新药研发时需要病人详细的入住条件信息,但当对入住条件进行严格筛选时,只有很少的数据源能够满足要求,因此就需要多中心的数据源的合作。然而当下隐私计算节点的部署数目是有限的,还需要持续建设。

第二,数据质量问题。数据源的归一化, ETL 等都需要跟友商进行合作,才能提供更高质量的数据。

第三,隐私计算平台无法覆盖所有医疗应用场景。对于用户的定制化需求有两种解决方法,一种是根据用户需求自主开发,效率比较低,当需求很多时就会出现瓶颈。另一种是提供 SDK满足用户个性化需求,这种形式能满足大部分AI场景需求。

爱分析: 请介绍锘崴的隐私计算技术框架,隐私计算技术框架如何支持应用?

王爽教授:我们应用和框架是分开的。iPRIVATES我们定义成应用,应用是用来解决多中心的全基因分析的应用。

隐私计算框架是底层,底层采用微服务的方式,提供不同的服务模块。比如联邦学习的模块、可信执行环境的模块、MPC以及同态加密模块,可以根据用户对于场景的性能、安全性、精度等要求编排不同的模块形成Pipeline,满足具体场景需求。

上层是应用。如多中心全基因组分析中的iPRIVATES应用,涉及到基因数据的筛选、人口的分层, 统计假设检验PCA等算法组合在一起,提供调参的接口给用户使用。

爱分析: 锘崴隐私计算平台在部署方式上有隐私计算一体机、虚拟化部署、云计算、软件包等多种方式,不同的部署方式适用的场景有什么不同?

王爽教授:部署方式的选择取决于客户的计算资源和数据存储方式。比如客户本身没有计算资源、只有数据节点,就可以配置一体机,数据接入以后即可开箱即用。比如用户有一定IaaS层或者 PaaS层的计算资源,就适合部署软件包或者容器。比如客户的数据存储在云上,就可以采用 SaaS 化服务的形式。

爱分析: 全栈的技术能力以及可编排、可组合的产品工程能力会成为未来隐私计算厂商的必备能力吗?

王爽教授:这一点主要取决于厂商的定位。市场上主要有两种类型的隐私计算公司,一种是“+隐私计算”类型,这类公司聚焦于某垂直细分行业,具备行业专业知识,清楚行业痛点,于是结合隐私计算技术解决垂直行业问题。现在金融行业、医疗行业都有这类隐私计算公司。

还有一种是“隐私计算+”类型的公司。这类公司会侧重开发底层的隐私计算的构架,通过融合多种隐私计算技术服务于不同行业。这类公司的优势在于技术钻研深入,产品综合能力强,能支持很多复杂的业务场景,而不是基于场景定制隐私计算应用。这是市场中常见的两种不同类型的公司的定位。

04

医疗领域能力沉淀助力锘崴科技快速拓展金融、政务领域

爱分析:锘崴科技目前在医疗、金融、政务领域积累的数据源网络包含哪些类型?

王爽教授:医疗场景下主要是医院的专病数据。锘崴科技在专病计划下有像癌症、罕见病、心脑血管、风湿免疫等不同的专病数据源。此外锘崴科技也与医院的信息系统对接,相应地增加了医院的供应商数据和病人病案首页信息。所有这些医疗数据可以服务于普惠金融、保险营销等应用。

金融场景下,锘崴科技主要是和银联、移动运营商、银行、保险公司等合作。政务领域,锘崴科技和多个省份的数据交易中心都有合作。

爱分析:锘崴服务于金融和政务场景下的优势是什么?

王爽教授:一方面,锘崴科技在医疗行业积累的丰富的数据源能为金融、政务行业进行补充。比如保险行业的营销场景中,既需要用户的财富信息,也需要用户的健康信息。锘崴科技已有的医院或体检中心的健康数据源对于保险来说就是一个很好的补充。

另一方面,锘崴科技医疗行业能力沉淀能充分支持金融、政务场景。医疗场景对于隐私计算的底层技术的需求与政务、金融场景不同。

比如参与方数量不同,像政务场景中参与方通常两到三方,而医疗场景中可能达到十方甚至百方;比如安全性、精度要求不同,医疗场景中需要支持恶意模型、支持远程验证以及进行算法优化,安全性及精度要求都要高于金融场景;比如数据类型的复杂度不同,医疗场景中除结构化数据外,还需要支持多种非结构化数据如基因数据、影像数据。

于是,当锘崴科技基于医疗场景沉淀下来的能力去赋能金融和政务的时候,可以创新开发出丰富的新型的复杂场景下的应用。所以相较市场中其他隐私计算企业偏重于业务场景的隐私计算应用,锘崴科技能偏重支持复杂场景下的应用,因此在面向市场时,锘崴可以与其他企业形成互补性的能力差异,最终实现错位竞争。

爱分析:锘崴科技在金融、政务行业的进展如何?

王爽教授:锘崴科技是从医疗行业起家,近两年也开始发力金融和政务行业。目前积累的合作伙伴数量近百家,包括数据源和数据使用方。

金融行业主要服务场景是精准营销、风控场景,如银行营销中的睡眠卡激活。由于今年人民银行出台了新政策《关于进一步促进信用卡业务规范健康发展的通知》,要求长期睡眠卡率超20%的银行不能新增发卡,所以银行需要激活沉睡客户。隐私计算可以帮助银行在保护客户隐私的前提下识别出睡眠客户,通过在银行、媒体端安装隐私计算终端,融合银行、媒体数据,可以在用户使用微信支付时快速识别出用户是否是睡眠卡用户。

此外,锘崴科技也把政务数据和金融数据进行融合打通服务于场景应用,比如普惠金融场景中,需要结合政务数据如人社局、海关、物流、用水用电等信息识别满足条件的小微企业;比如防赌反诈场景中,需要综合用到运营商数据和公安的黑名单数据实现反诈。

爱分析:在产品、技术以及业务方面,锘崴未来的规划是什么样的?

王爽教授:在技术上,锘崴科技会持续迭代,根据客户反馈开展前沿性的研究,提升整体系统的安全性、性能和精度。应用方面,锘崴科技也会持续扩大隐私计算平台的开放应用的规模,希望能链接更多领域内有优势的合作伙伴,通过锘崴科技提供隐私计算的 SDK、合作伙伴提供场景以及行业的know-how的形式联合开发应用,构建隐私计算平台开放应用生态。

此外,锘崴科技也会持续加深数据运营,希望从目前的项目建设阶段逐渐过渡到开放应用生态的订阅制以及数据运营的分润的阶段。其中在分润模式上,锘崴科技也在探索,包括按次来收费或者是按效果分润进行收费。

开放应用和数据运营分润是未来隐私计算行业发展的趋势。但目前整体行业还是以项目建设为主,这是因为大部分的数据节点还没有隐私计算能力,只有形成隐私计算节点网络后,运营分润的比重才会凸显出来。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

THE END
0.华为郭振兴:AI技术为制造行业带来提质、降本、增效的巨大潜力“在科技创新领域,大家平时接触到的可能是华为各种解决方案的创新。然而在解决方案创新的底层,还有大量的基础技术创新和投入。这些投入在短期内或许难见成效,但一旦成功,将对整个产业带来深远影响。”华为中国政企业务副总裁郭振兴在“华为AI+制造行业峰会2024”上对记者如此表示。 jvzquC41pg}t0|npc0ipo7hp1u~04976/2;.4=4fgvgjn6npcyon|}55;4?877xjvor
1.AI:数字身份验证解决方案助力企业加强对AI技术应用的自治管理|AIADVANCE.AI副总裁崔琦表示: “严防AI欺诈,各类提供在线服务的企业不仅要确保各项业务的合规运营,还要加强对AI技术应用的自治管理。比如,通过在用户注册、登录环节部署合理的数字化身份欺诈风险防范策略;在业务运营中设置异常用户行为报告制度;均能够助力有效识别具有危害性的生成式AI内容,包括但不限于虚假账户、伪造产品图片 jvzquC41pg}t0|npc0ipo7hp1u~04975/2?.494fgvgjn6no|povpn7;;3?1:7xjvor
2.AI换脸骗局频现人工智能使用边界在哪儿新闻频道“鉴于人工智能的技术复杂性,世界各国对其风险治理均处于探索阶段,对其约束和监管仍有赖于法律体系的完善。”方翔介绍,欧盟目前正在推进全球首部人工智能法案。2023年4月,欧洲议会成员就《人工智能法(The AI Act)》提案达成临时政治协议,强化对生成式人工智能的监管,并将人工智能技术可能带来的风险细化为极小风险、有限jvzq<84pgyy/{xzvj0io1|m142842?4v42842?58a3:68><780nuo
3.郭德纲赵本山“飙英语”,有何风险?警惕AI“深度造假”!|第2眼在技术层面,数字水印鉴伪等技术有待进一步普及利用。比如AI生成的视频需带有不可消除的“AI生成”水印字样。 在法律制度层面,进一步完善人工智能等领域相关法律法规。今年8月15日,《生成式人工智能服务管理暂行办法》正式施行。《办法》规定,提供和使用生成式人工智能服务,应当尊重他人合法权益,不得危害他人身心健康,不jvzquC41pg}t0‚hyd0ipo872453238581euovnsva7842A5550nuo
4.瞭望·瞭望访谈|打造AI大模型创新应用高地——专访中国工程院院士自2006年神经网络有效学习获得重要的优化途径至今,基于深度学习的AI技术研究范式,经历了从小数据到大数据,从小模型到大模型,从专用到通用的发展历程。2022年底,依托“大模型+大数据+大算力”加持的语言大模型ChatGPT,具备了多场景、多用途、跨学科的任务处理能力。这类大模型技术能广泛应用于经济、法律等众多领域,在全球jvzq<84yyy4ip7}kpj{bpny0eqs0497534651?<249;79;7cg6=b7jhc7f:deBf32f;778h0jvsm