CCF最新分享:数据隐私保护下,AI大数据应如何发展?

激光雕刻机 | 2021-04-17

【火狐体育直播】3月24日,由CCF主办、美中银行及深圳大学美中金融科技研究院主办的“CCFTF14期研讨会”在深圳大学举行,此次会议的主题是“维护联邦自学技术及数据隐私”,亿欧应邀参加报道。随着国际和国内数据隐私保护维护沦落为新趋势,数据共享变得更加困难。如何在保护数据个人信息的前提下积极进行AI大数据研究?“联邦自学”可以超越“数据爱尔兰”,明确适用于AI领域。CCFTF第14期研讨会邀请了国际人工智能学会理事长、美中银行首席人工智能官杨康、南阳理工大学有限教授、美中银行人工智能部高级研究员刘阳、京东智能城市事业部AI平台负责人张均博、北京官道中务(上海)律师事务所合作伙伴王有伟。

AI大数据面临挑战,技术为善和迁移自学,AI与各行业紧密结合,最终会大大改善社会生活,这是一种比较理想的状态,但现实情况是,AI系统仍然有很多不尽人意的地方。此外,社会对隐私维护和数据安全提出了更高的拒绝,这对大数据的研究和共享提出了新的挑战。

火狐体育

竞争、安全和数据壁垒等因素导致了所谓的“孤立数据”问题。在这种背景下,您可以在数据集之间创建朋友圈,并通过自主迁移(如有效地解决数据岛问题)来建模更多领域。AI是善和系统短板AI是善的,在普惠金融、普惠教育、普惠医疗、智慧城市、灾难救援、贫困地区、农业等方面可以发挥最重要的作用。

杨康教授回答说:“AI for good。”这是海外已经明确提出的概念。这个概念在一定程度上是计算机领域的发展,也是社会的市场需求,最近人们比较关心的议题之一是AI和社会的融合。

AI应该像以前的互联网被用作工具一样,添加少数人无法享受的传统领域,然后通过AI的手段传播到广泛的社会,让普通人也可以使用过去VIP可以享受的类似服务。因为还包括金融,所以产生了AI和普惠金融。

AI和普惠教育,例如大学的高等教育,不是每个人都能享受的。还有AI和普惠医疗、智慧城市、灾难救援、AI贫困地区、农业等。“如果AI能与各行各业紧密结合,最终能明显改善社会生活。

这是一种比较理想的状态,但现实是,AI系统仍然有很多不尽人意的地方。例如,AI系统的偏向性和AI系统与人类合作方面的问题。

(阿尔伯特爱因斯坦,Northern Exposure(美国电视),成功)“AI系统是偏向的。根据我们传递给AI系统的数据,AI系统可以建立模型,但是如果这个数据有点的话,这个模型就不偏不倚了。另一个问题是AI系统和人类合作的问题。最近相当大的是波音飞机自动驾驶系统和人类飞行员被剥夺了控制权。

意外地,系统输了,发生了飞机事故,目前波音飞机停飞。这给了我们相当大的约束,如果自动系统不能与人类进行良好的互动,没有以人为本的设计,这个系统就不是灾难了。

“杨康教授响应。转移到自学解决问题“数据岛”问题的目前,除了AI系统本身的部分问题外,重视隐私维护和数据安全的新趋势也给数据研究和共享带来了新的挑战。近年来,国际国内对个人信息保护和数据安全的推崇成为最重要的趋势。

去年5月,欧盟最近通过法案《通用数据维护条例》 (GDPR),对数据保护采取了更加严格的态度。同时,我国也遵循这一领域的法律和规范,自2017年通过《网络安全法》以来,目前我国个人信息保护法已经进入法律计划,今后将于2020年通过,这些都表明数据保护和隐私安全受到更加重视。

随着个人信息保护和数据安全尊重沦为新趋势,数据研究和共享面临更多问题。首先,由于竞争关系、安全问题、审计过程等原因,数据共享的可能性较低。

其次,数据在不同享有者、云、端、物联网节点之间流通上没有不可逾越的障碍,构成了所谓的“数据孤岛”问题。此外,即使不同行业有相互交换数据的意愿,也可能面临政策责任和竞争维护,AI的大数据面临各种挑战。AI的大数据面临很多挑战,但孤立的数据并不能解决问题。

“转移到自学是一个好的解决方案。自学迁移是成熟期领域的数据和模型,通过科学知识迁移,帮助完成小数据建模。这样,通过相关区域之间的相似性,可以对更多区域建模。

这相当于在数据集之间建立朋友圈,数据岛可以有效地解决问题。”杨康教授响应。

数据共享和安全、联邦自学的优越性、问题数据障碍、“数据岛”等问题的解决方法,除了向自学迁移外,还有最重要的方法3354“联邦自学”。谷歌首次明确提出了基于个人终端设备的“联邦自学”算法框架。Federated Machine Learning基本上是一种加密的分布式机器学习技术,它可以在不公开基础数据和基础数据的加密(误解)形式的情况下共享资源。

可以在本地构建每个企业自己的数据,在加密机制中相互交换参数,在不违反数据隐私规定的情况下创建虚拟世界的总模型。在这些机制下,参与方的身份和地位完全相同,顺利构建了阻断“数据岛”南北“共同发展”的目标。联邦自学分为纵向联邦和横向联邦,纵向联邦数据端特征维完全相同,横向联邦数据端样本ID相同。

水平联邦自学的目标是A侧和B侧制作模型。假设只有一方有Y的标签,任何一方都不暴露数据。但是只有X端不能制作模型,双方不能交换共享数据。

最后,要超出预期。也就是说,杨贤受到数据保护,模型不会丢失。(约翰肯尼迪,Northern Exposure(美国电视),“横向联邦自学”使各方在个人信息保护下展开样本ID。每个参与者都不知道对方的数据和特征。

每个参与者只获得自己的外部模型参数(半参数)。也就是说,它符合拒绝个人信息维护和数据迁移自学的目标。联邦自学以遵守安全规定为基础,期待超过防卫反击、提高算法效率的目标。

”刘阳博士响应。因此,微银行AI团队明确提出了基于“联邦自学”的系统化和标准化解决方案,可以解决个人(to C)和公司(to B)主导的建模问题。此前,美中银行在城市管理的视觉应用领域与极角共同推出了联邦视觉项目。“传统的城市管理标记数少,数据集中少,管理成本高,对模型修订和系统没有离线延迟,联邦视觉项目通过联邦自学将模型增长率提高到15%,模型效果无损,是联邦自学应用于物联网领域的诸多优点。

”刘阳回答。物联网(IoT)以互联网、传统通信网等信息传输渠道为基础,允许没有通信功能的所有独立国家物体建立相互连接的网络。物联网应用程序之一是收集多个节点的小数据,并用大数据填充模型。(约翰肯尼迪,Northern Exposure(美国电视剧),互联网名言)边缘计算依赖于将网络、计算、存储和核心功能结合在一起的开放平台,确保最近的终端服务,从而产生满足各种行业动态业务市场要求的缓慢网络服务调用。

与物联网、边缘计算和人工智能(AI)的有机融合必须分散,大数据的安全、合法管理、联邦自学帮助IoT,构建大规模用户保持数据隐私的合作自学。多方面如何构建“共同富裕”,联邦自学的收益分配,联邦自学帮助物联网发展,那么多数据方面如何超越“数据岛”建设“共同富裕”?联邦自主学习的收入分配是什么?刘汉教授回答。“在联邦自学机制中,参与方的身份和地位是一样的。

各参与方将加密数据贡献给联邦后,数据联盟对联邦模式进行了培训,该模式应重新对各数据开放,超越数据的有效整合和使用,阻断“数据孤岛”。但是,在带来利益的同时,联邦自学也可以给企业带来额外的费用。特别是,参与者重新加入必须对联邦做出贡献,将加密的数据捐赠给联邦,不产生数据成本和资本成本,不同质量的数据当事人重新加入联邦,重新加入时间节点的成本和利益可能不完全相同。

(大卫亚设,Northern Exposure(美国电视),时间)一个数据联盟的可持续发展各不相同,一位教授特别强调能否持续更高质量的个人机构数据持有人的参与。如何让更高质量的个人机构数据参与进来?在回答这个问题之前,理解收益分配博弈论是恰当的。

三类利益分配博弈论的分配方案还包括平均主义、边际收益和边际损失。根据平均主义,假设数据联盟的收益在参与者之间平均分配,边际收益根据一个参与者重新加入联盟时带来的边际收益确认他获奖的收益,边际损失根据一个参与者解散联盟带来的边际损失确认他获奖的收益。从系统的角度来看,总体目标是最大限度地提高集体效用。这些分配方案都有各自的好坏,如何找到适合联邦自学的分配方案?答案是联邦自主学习激励机制。

数据联盟参与者模式的核心问题是如何公平对待参与者,综合考虑数据当事人对联盟的贡献和参与联盟的费用,评估收入分配是否能补充费用,即公平目标。因此,联邦自主学习解决方案是以排队系统为基础对公平目标进行建模,以确保排队系统顺畅,从而限制参与者等待全部补偿的时间。另外,模型的公平性维度有三个,一个是一个参与者贡献的数据给联邦模型带来的边际利润越高,补偿也越高。第二,“失望”和等待时间不能在所有参与者之间尽可能平均地分布。

公平性纬度3在不同时间点之间尽量不要出现“失望”度和等待时间的变化,最后优化目标函数。优化目标函数,最大限度地提高公平性。

因此,联邦自学激励的利益分配方案是最大限度地提高数据联盟的整体效用,同时最大限度地减少参与者之间的失望和等待时间之间的不平衡。联邦自学、机会和挑战共存联邦自学在保障数据安全的同时解决“数据孤岛”问题,同时联邦自学通过联邦激励措施尽可能公平地构建参与人的收入分配。

在未来,联邦自学将变得更加惊人。特别是在生态建设领域,主要是开源、技术标准、商业能力等。对于开放源代码,微银行以“联邦自学”为基础开发了联盟AI系统和开放源代码联盟AI解决方案联邦技术启用程序(Fate)。FATE是联邦自主学习领域第一个商用开源项目,它提供开发人员所需的多方面协作建模工作流管理、加密机器学习工具库和并行计算基础架构抽象三层功能。

同时获得了很多现成的联邦自主学习算法和联邦迁移自主学习算法,供开发人员参考。大大修改了联盟AI开发过程,减少了部署再生的可能性。 这种开源技术的出现大大减少了企业重新加入联盟AI生态系统,扩大了协作AI技术的门槛,为企业技术合作、联合建模、资源共享生态奠定了技术基础。关于技术标准,2018年12月4日,电气和电子工程师协会标准委员会批准后,适用于未公开银行启动的联邦自主学习体系结构和规范的标准P 3652.1(Guide for Architectural Framework and)。

除开源、技术标准外,商业部还可以被认为是另一个最重要的方面,特别是新型智能城市建设。京东智能城市事业部AI平台部长张均波解释了城市计算和自主学习主导建模,城市计算(Urban Computing)通过收集、管理、分析挖掘和获取服务解决了问题、交通、规划、环境等问题。城市大数据具有施工力学、异构、多源等特点,京东市构建城市计算平台及数字网关技术,构建跨域自主学习主导建模,明确提出联邦随机森林等模型,阻断数据壁垒,解决问题数据孤岛问题。研讨会除了联邦自学技术应用等主要议题外,还针对联邦自学、学术研究及数据隐私等现实案例问题,邀请第四范式的陈宇刚博士和北京官道中务(上海)律师事务所合作伙伴王裕伟律师分享内容。

让在场的联邦自学爱好者更好地了解联邦自学技术。联邦自学在给我们带来更多惊奇的同时,还面临着各种挑战,包括如何防止模型反击和数据反击,以及如何在遵守安全规定的前提下使联邦自学提高算法的效率。

学术界和业界更多的参与者应该共同探索!中国计算机联合会(CCF)以计算领域对外开放、专业学术社团、坚决会员为中心的宗旨,推动计算技术的发展和应用,致力于服务专家的职业发展。美中银行是国内首家开业的民营银行,由腾讯、备份院、立业等多家知名企业创办。

2014年12月获得深圳银监局颁发的金融许可证。微银行严格遵守国家金融法规和监管政策,以合规经营和实际发展为基础,致力于使普罗大众、小企业获得与众不同、有特色、便利的金融服务。

本文来源:火狐体育直播-www.sierrapol.com