大数据如何采集信息(大数据时代,个人信息被各种收集,隐私计算如何保护用户隐私?)



大声说话(微信官方账号同名)

笔者所在的金融机构计划落地一个隐私计算项目,通过与行业头部公司的广泛沟通和产品测试,获得了一些行业认知和痛点理解。在此与大家分享探讨,希望对行业发展有所帮助。

隐私计算只拼凑了一个木桶的木板

业界普遍停留在简单提供隐私计算工具的层面

在《金融机构如何选择隐私计算技术和公司》(公众号标题:大声说话,门口左转)一文中,作者提到了金融机构可能应用于隐私计算的几个数据场景:单向查询的身份验证和反欺诈、联邦学习的风控建模和精准营销建模、双盲隐形查询的行业黑名单共享、多方安全计算的系统内联合统计。

通过梳理,我们发现目前已经落地的隐私计算项目的共同特点是:数据和应用场景清晰或可用,除了隐私计算工具。但对于大部分需要引入广泛数据源的应用场景,由于隐私计算厂商的数据源覆盖不足,项目无法落地。

《个人信息保护法》出台后的一个典型现象是,由于合规数据来源的大幅减少和客户通知授权的限制,金融机构风控模型的模型效果急剧下降,精准营销模型只能局限在自身数据来源,因而效果大打折扣。行业迫切需要解决数据源合规改造的问题。对于这一点,仅仅提供隐私计算工具是远远不够的。



问题的核心在于数据源厂商的合作热情。我们发现,由于缺乏激励,数据源厂商不愿意与隐私计算厂商合作安装加密节点,也不愿意与需求方合作提供测试数据。另外,对于一个模型,有用的数据源不止一个,多个数据源参与联调会很正常。然而,在现实中,多个数据源供应商之间的合作非常困难,更不用说说服他们使用同一个隐私计算工具了。

对于隐私计算公司来说,独自征服数据源厂商是很自然的想法。比较现实的操作是:绑定一个强大的需求方,利用其知名的行业地位和海量的数据采购,迫使数据源厂商做出改变。一旦数据源厂商部署加密节点解决0到1的问题,1到100的难度将大大降低。所以解决数据问题的突破口在需求端,需要头部机构破冰,建立模型。隐私计算厂商要深入分析头部需求侧痛点并提供解决方案,充分调动需求侧驱动供给侧改革。我们期待2022年这一里程碑式的事件,这将是隐私计算行业从实验阶段走向商用阶段的重要标志。



合规方案设计+数据+隐私计算工具是完整的方案

需求方的痛点是什么?除了使用隐私计算工具覆盖足够的数据源外,从哪些数据源可以购买什么样的数据,购买时应满足什么条件,双方的权利义务如何设定,都需要依据个人信息保护法等相关法律法规进行判断甚至改革。虽然这不是隐私计算公司的责任,但是为了推动项目的落地,必须有人负责整个数据导入过程的合规设计。

至于合规流程如何设计,笔者在《金融行业数据采集的法律隐患及转型建议》(公众号:大声说话,门口右转)一文中有详细讲解,这里不再赘述。

需求方还有一个痛点:隐私计算工具的采购风险。这是需求方(甲方)不会提,隐私计算厂商(乙方)很难实现的问题。由于隐私计算涉及多条技术路径,每条技术路径都有很多厂商,不同厂商采用的底层技术也不一样,导致需求方(甲方)很难比较产品性能。同时,由于隐私计算工具的安全自认证是行业问题,需求方无法对隐私计算产品的安全性进行评估。此外,大多数隐私计算供应商都是初创公司,很难预测业务的连续性。因此,隐私计算工具的采购是一个长期存在的问题,采购决策的风险和压力是巨大的。如何有效降低需求者尤其是购买者的决策风险,针对需求场景选择合适的隐私计算工具,也是隐私计算公司面临的难题。业界有必要提供一种具有一定兼容性,能够实现不同隐私计算产品轻量级替代的解决方案。

无力恶意攻击

恶意攻击的防范是一个永恒的话题,没有一款产品可以高枕无忧。这个结论同样适用于隐私计算工具。在实用的前提下,基本上所有的隐私计算产品都无法应对恶意攻击。投毒攻击、反攻击、隐私泄露等联邦学习的三类问题中,安全性和模型鲁棒性始终是一对矛盾(见<西华大学学报自然科学版,第39卷第4期,2020年7月:);对于多方安全计算,网络攻击导致拥塞和计算任务超时,会进一步使其性能成为瓶颈。对于可信执行环境,旁路攻击的安全问题也没有得到解决。



可信计算和隐私计算之间的互补性

什么是可信计算?

可信计算是指在计算的同时提供安全保护。计算的全过程可以不受干扰地测量和控制,使计算结果始终与预期一致(信息安全技术可信计算可信计算架构:).可信计算是一种主动免疫计算模式,改变了传统的只强调计算效率,不强调安全保护的片面计算模式,是第三级同等安全的重要组成部分,是第四级同等安全的必选项。

可信计算的工作原理是:采用安全可信策略控制下的主动免疫的新型计算节点架构,以新开发的密码为基因,执行身份识别、状态测量、机密存储等功能,及时识别“自我”和“非我”成分,从而摧毁和排斥进入体内的有害物质,培养对网络信息系统的免疫能力。

对隐私计算的影响

简单来说,可信计算致力于解决网络攻击,尤其是针对恶意攻击。隐私计算主要是为了保护个人信息,在传输过程中对个人信息数据进行匿名化和划界。我们知道,个人信息保护法在保护网络安全、保护数据存储和传输安全、识别个人信息等方面,对信息处理主体都有相关要求。因此,可信计算和隐私计算的结合将有助于更全面地解决个人信息保护问题。而且,可信计算对恶意攻击的有效保护,可以大大降低隐私计算的安全压力。两者的有机结合将会是



“可信计算+隐私计算”一体机

在作者的文章《隐私计算的深度解读》(公众号标题:进门楼上大声说话)中,我们提到,为了降低购买者的决策风险和压力,一款可以兼容不同隐私计算厂商的硬件一体机,可以实现不同产品之间的轻量级替代,这是一个很好的解决方案。

大数据如何采集

根据可信计算架构(GB/T3863-202)标准,可信主板等可信硬件保护在可信计算架构中不可或缺,这意味着可信计算与隐私计算的结合必须走软硬结合的道路。因此,承载了兼容不同隐私计算产品的软件和可信计算中的可信软件库、可信密码模块、平台控制模块和可信链接模块。一款兼容可信主板、可信执行环境(TEE)适配芯片、内存的“可信计算+隐私计算”一体机,将是打破当前隐私计算行业的方式。(本文为作者观点,非头条位置)

您可以还会对下面的文章感兴趣

使用微信扫描二维码后

点击右上角发送给好友