人工智能数据安全白皮书(2019).pdf

资源ID：10012 资源大小：1.21MB 全文页数：51页
资源格式： PDF 下载权限：游客/注册会员/VIP会员 下载费用：10碳币【人民币10元】

快捷注册下载

会员登录下载

三方登录下载：

下载资源需要10碳币【人民币10元】

邮箱/手机：
温馨提示：	支付成功后，系统会自动生成账号（用户名和密码都是您填写的邮箱或者手机号），方便下次登录下载和查询订单；
支付方式：
验证码：	换一换

加入VIP,免费下载

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，既可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰

网站客服

侵权投诉

人工智能数据安全白皮书(2019).pdf

人工智能数据安全白皮书中国信息通信研究院安全研究所 2019年8月版权声明本白皮书版权属于中国信息通信研究院安全研究所，并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的，应注明“来源中国信息通信研究院安全研究所” 。违反上述声明者，本单位将追究其相关法律责任。前言人工智能作为引领新一轮科技革命和产业变革的战略性技术，已成为世界主要国家谋求新一轮国家科技竞争主导权的关键领域。随着政府人工智能战略布局的落地实施，全球人工智能发展正进入技术创新迭代持续加速和融合应用拓展深化的新阶段，深刻改变着国家政治、经济、社会、国防等领域的运行模式，对人类生产生活带来翻天覆地的变化。数据作为驱动本轮人工智能浪潮全面兴起的三大基础要素之一，数据安全风险已成为影响人工智能安全发展的关键因素。与此同时，人工智能应用也给数据安全带来严峻挑战,如何应对人工智能场景下的数据安全风险日渐成为国际人工智能治理的重要议题。部分国家已率先探索人工智能数据安全风险的前瞻研究和主动预防，并积极推动人工智能在数据安全领域应用，力求实现人工智能与数据安全的良性互动发展。本白皮书从人工智能数据安全的内涵出发，首次提出人工智能数据安全的体系架构，在系统梳理人工智能数据安全风险和安全应用情况的基础上，总结了国内外人工智能数据安全治理现状，研究提出了我国人工智能数据安全治理建议。目录一、人工智能数据安全概述. 1 （一）人工智能安全 1 （二）人工智能数据安全内涵. 2 （三）人工智能数据安全体系架构 . 3 二、人工智能数据安全风险. 5 （一）人工智能自身面临的数据安全风险 . 5 （二）人工智能应用导致的数据安全风险 . 7 （三）人工智能应用加剧的数据治理挑战 11 三、人工智能数据安全应用 13 （一）人工智能与数据安全治理 13 （二）人工智能在数据安全治理中的应用 15 四、国内外人工智能数据安全治理动态 23 （一）国内外人工智能数据安全战略规划情况 24 （二）国内外人工智能数据安全伦理规范情况 28 （三）国内外人工智能数据安全法律制定情况 30 （四）国内外人工智能数据安全技术发展情况 32 （五）国内外人工智能数据安全标准规范情况 34 五、人工智能数据安全治理建议 36 （一）明晰发展与安全并举的治理思路 36 （二）引导社会遵循人工智能伦理规范 37 （三）建立人工智能数据安全法律法规 37 （四）完善人工智能数据安全监管措施 38 （五）健全人工智能数据安全标准体系 39 （六）创新人工智能数据安全技术手段 39 （七）培养复合人工智能数据安全人才 40 人工智能数据安全白皮书（2019 年）中国信息通信研究院 1 一、人工智能数据安全概述（一）人工智能安全当前，由人工智能引领的新一轮科技革命和产业变革方兴未艾，正在对经济发展、社会进步、国家治理等方面产生重大而深远的影响。世界主要国家和全球产业界高度重视并积极布局，人工智能迎来新的发展浪潮。然而，技术进步往往是一把“双刃剑” ，本项目组在人工智能安全白皮书（2018年）中提出人工智能因其技术的局限性和应用的广泛性，给网络安全、数据安全、算法安全和信息安全带来风险，并对国家政治、军事和社会安全带来诸多挑战。与此同时，人工智能因其突出的数据分析、知识提取、自主学习、智能决策等能力，可在网络防护、数据管理、信息审查、智能安防、金融风控、舆情监测等网络信息安全领域和社会公共安全领域有许多创新性应用。为有效管控人工智能安全风险并积极促进人工智能技术在安全领域应用，可从法规政策、标准规范、技术手段、安全评估、人才队伍、可控生态等方面构建人工智能安全管理体系。图 1 人工智能安全体系架构图人工智能数据安全白皮书（2019 年）中国信息通信研究院 2 （二）人工智能数据安全内涵 1 、人工智能与数据人工智能与数据相辅相成、互促发展。一方面，海量优质数据助力人工智能发展。现阶段，以深度学习为代表的人工智能算法设计与优化需要以海量优质数据为驱动。谷歌研究提出，随着训练数据数量级的增加，相同机器视觉算法模型的性能呈线性上升。牛津大学国际发展研究中心将大数据质量和可用性作为评价政府人工智能准备指数的重要考察项 1 。美国欧亚集团咨询公司将数据数量和质量视为衡量人工智能发展潜力的重要评价指标 2 。另一方面，人工智能显著提升数据收集管理能力和数据挖掘利用水平。人工智能在人们日常生活和企业生产经营中大规模应用，获取、收集和分析更多用户和企业数据，促进人工智能语义分析、内容理解、模式识别等方面技术能力进一步优化，更好地实现对收集的海量数据进行快速分析和分类管理。而且，人工智能对看似毫不相关的海量数据进行深度挖掘分析，发现经济社会运行规律、用户心理和行为特征等新知识。基于新知识，人工智能进一步提升对未来的预测和对现实问题的实时决策能力，提升数据资源利用价值，优化企业经营决策、创新经济发展方式、完善社会治理体系。 2 、人工智能数据安全数据安全是人工智能安全的关键。数据成为本轮人工智能浪潮兴起发展的关键要素。人工智能算法设计与优化需要以海量优质数据资12019 年政府人工智能准备指数 2中国拥抱 AI 人工智能数据安全白皮书（2019 年）中国信息通信研究院 3 源为基础。数据质量和安全直接影响人工智能系统算法模型的准确性，进而威胁人工智能应用安全。与此同时，人工智能显著提升数据收集管理能力和数据价值挖掘利用水平。人工智能这些能力一旦被不当或恶意利用，不仅威胁个人隐私和企业资产安全，甚至影响社会稳定和国家安全。而且，人工智能、大数据与实体经济不断深度融合，成为推动数字经济和智能社会发展的关键要素。人工智能大规模应用间接促使数据权属问题、数据违规跨境等数据治理挑战进一步加剧。人工智能为数据安全治理带来新机遇。人工智能驱动数据安全治理加速向自动化、智能化、高效化、精准化方向演进。人工智能自动学习和自主决策能力可有效缓解现有数据安全技术手段对专业人员分析判断的高度依赖，实现对动态变化数据安全风险的自动和智能监测防护。人工智能卓越的海量数据处理能力可有效弥补现有数据安全技术手段数据处理能力不足的缺陷，实现对大规模数据资产和数据活动的高效、精准管理和保护。人工智能赋能数据安全治理，助力数据大规模安全应用，将有力推动经济社会数字化转型升级。基于以上分析，项目组认为，人工智能数据安全内涵包含一是应对人工智能自身面临和应用导致及加剧的数据安全风险与治理挑战；二是促进人工智能在数据安全领域中的应用；三是构建人工智能数据安全治理体系，保障人工智能安全稳步发展。（三）人工智能数据安全体系架构人工智能数据安全白皮书（2019 年）中国信息通信研究院 4 人工智能数据安全风险面临的数据安全风险数据过度采集数据过度采集数据资源滥用数据资源滥用数据智能窃取数据智能窃取数据深度伪造数据深度伪造导致的数据安全风险训练数据污染训练数据污染运行数据异常运行数据异常数据逆向还原数据逆向还原数据偏见歧视数据偏见歧视数据权属问题数据权属问题加剧的数据治理挑战人工智能数据安全应用精准化数据安全策略制定精准化数据安全策略制定自动化数据资产安全管理自动化数据资产安全管理智能化数据活动安全保护智能化数据活动安全保护高效化数据安全事件管理高效化数据安全事件管理国家战略国家战略伦理规范伦理规范法律法规法律法规监管政策监管政策标准规范标准规范技术手段技术手段人工智能数据安全治理开源框架风险开源框架风险人才队伍人才队伍数据违规跨境数据违规跨境图 2 人工智能数据安全体系架构图基于对人工智能数据安全内涵分析，项目组提出覆盖人工智能数据安全风险、人工智能数据安全应用、人工智能数据安全治理三个维度的人工智能数据安全体系架构。其中，人工智能数据安全风险是人工智能数据安全治理的起因, 包含人工智能自身面临的数据安全风险，人工智能应用导致的数据安全风险，人工智能应用加剧的数据治理挑战。本白皮书重点分析人工智能相关特有数据安全风险与治理挑战。人工智能数据安全应用是人工智能技术用于数据安全治理, 包含人工智能技术在精准化数据安全策略制定、自动化数据资产安全管理、智能化数据活动安全保护以及高效化数据安全事件管理方面的应用。人工智能数据安全治理是应对人工智能数据安全风险和促进人工智人工智能数据安全白皮书（2019 年）中国信息通信研究院 5 能数据安全应用的体系化方案, 包含国家战略、伦理规范、法律法规、监管政策、标准规范、技术手段、人才队伍等方面。二、人工智能数据安全风险（一）人工智能自身面临的数据安全风险训练数据污染可导致人工智能决策错误。数据投毒通过在训练数据里加入伪装数据、恶意样本等破坏数据的完整性，进而导致训练的算法模型决策出现偏差。数据投毒主要有两种攻击方式一种是采用模型偏斜方式，主要攻击目标是训练数据样本，通过污染训练数据达到改变分类器分类边界的目的。例如，模型偏斜污染训练数据可欺骗分类器将特定的恶意二进制文件标记为良性。另外一种是采用反馈误导方式，主要攻击目标是人工智能的学习模型本身，利用模型的用户反馈机制发起攻击，直接向模型“注入”伪装的数据或信息，误导人工智能做出错误判断。随着人工智能与实体经济深度融合，医疗、交通、金融等行业训练数据集建设需求迫切，这就为恶意、伪造数据的注入提供了机会，使得从训练样本环节发动网络攻击成为最直接有效的方法，潜在危害巨大。在自动驾驶领域，数据投毒可导致车辆违反交通规则甚至造成交通事故；在军事领域，通过信息伪装的方式可诱导自主性武器启动或攻击，从而带来毁灭性风险。运行阶段的数据异常可导致智能系统运行错误。一是人为构造对抗样本攻击，导致智能系统产生错误的决策结果。人工智能算法模型主要反映了数据关联性和特征统计，而没有真正获取数据因果关系。针对算法模型这一缺陷，对抗样本通过对数据输入样例添加难以察觉人工智能数据安全白皮书（2019 年）中国信息通信研究院 6 的扰动，使算法模型以高置信度给出一个错误的输出。对抗样本攻击可实现逃避检测，例如在生物特征识别应用场景中，对抗样本攻击可欺骗基于人工智能技术的身份鉴别、活体检测系统。2019 年 4 月，比利时鲁汶大学研究人员发现，借助一张设计的打印图案就可以避开人工智能视频监控系统。二是动态环境的非常规输入可导致智能系统运行错误。人工智能决策严重依赖训练数据特征分布性和完备性，人工标记数据覆盖不全、训练数据与测试数据同质化等原因常常导致人工智能算法泛化能力差，智能系统在动态环境实际使用中决策可能出现错误。特斯拉汽车自动驾驶系统曾因无法识别蓝天背景下的白色货车，致使发生致命交通事故。模型窃取攻击可对算法模型的数据进行逆向还原。人工智能算法模型的训练过程依托训练数据，并且在运行过程中会进一步采集数据进行模型优化，相关数据可能涉及到隐私或敏感信息，所以算法模型的机密性非常重要。但是，算法模型在部署应用中需要将公共访问接口发布给用户使用，攻击者可通过公共访问接口对算法模型进行黑盒访问，依据输入信息和输出信息映射关系，在没有算法模型任何先验知识（训练数据、模型参数等）情况下，构造出与目标模型相似度非常高的模型，实现对算法模型的窃取，进而还原出模型训练和运行过程中的数据以及相关隐私信息。新加坡国立大学Reza Shokri等针对机器学习模型的隐私泄露问题,提出了一种成员推理攻击，在对模型参数和结构知之甚少的情况下，可以推断某一样本是否在模型的训练人工智能数据安全白皮书（2019 年）中国信息通信研究院 7 数据集中 3 。开源学习框架存在安全风险，可导致人工智能系统数据泄露。人工智能开源学习框架实现了基础算法的模块化封装，可以让应用开发人员无需关注底层实现细节，大大提高了人工智能应用的开发效率。谷歌、微软、亚马逊、脸书等企业都发布了自己的人工智能学习框架，在全球得到广泛应用。但是，人工智能开源学习框架集成了大量的第三方软件包和依赖库资源，相关组件缺乏严格的测试管理和安全认证，存在未知安全漏洞。近年来，360、腾讯等企业安全团队曾多次发现 TensorFlow、 Caffe、 Torch等深度学习框架及其依赖库的安全漏洞，攻击者可利用相关漏洞篡改或窃取人工智能系统数据。（二）人工智能应用导致的数据安全风险人工智能应用可导致个人数据过度采集，加剧隐私泄露风险。随着各类智能设备（如智能手环、智能音箱）和智能系统（如生物特征识别系统、智能医疗系统）的应用普及，人工智能设备和系统对个人信息采集更加直接与全面。相较于互联网对用户上网习惯、消费记录等信息采集，人工智能应用可采集用户人脸、指纹、声纹、虹膜、心跳、基因等具有强个人属性的生物特征信息。这些信息具有唯一性和不变性，一旦被泄露或者滥用会对公民权益将造成严重影响。2018 年8月，腾讯安全团队发现亚马逊智能音箱后门，可实现远程窃听并录音。 2019年 2月，我国人脸识别公司深网视界曝出数据泄露事件，超过250万人数据、680万条记录被泄露，其中包括身份证信息、人3Reza Shokri, Marco Stronati, Congzheng Song, et al.Membership Inference Attacks Against Machine Learning Models 人工智能数据安全白皮书（2019 年）中国信息通信研究院 8 脸识别图像及 GPS位置记录等。鉴于对个人隐私获取的担忧，智能安防的应用在欧美国家存在较大争议，2019 年 7 月，继旧金山之后，萨默维尔市成为美国第二个禁止人脸识别的城市。人工智能放大数据偏见歧视影响，威胁社会公平正义。当前，人工智能技术已应用于智慧政务、智慧金融等领域，成为社会治理的重要辅助手段。但是，人工智能训练数据在分布性上往往存在偏差，隐藏特定的社会价值倾向，甚至是社会偏见。例如，海量互联网数据更多体现我国经济发达地区、青壮年网民特征，而对边远地区以及老幼贫弱人群的特征无法有效覆盖。人工智能系统如果受到训练数据潜在的社会偏见或歧视影响，其决策结果势必威胁人类社会的公平正义。在社会招聘领域，美国 Kronos 公司的人工智能雇佣辅助系统让少数族裔、女性或者有心理疾病史的人更难找到工作；在金融征信领域，科技金融公司 Zest的人工智能信用评估平台 ZAML，采集分析用户网络行为来判定用户的信用值，曾经错误判定不能熟练使用英语的移民群体存在信用问题。人工智能技术的数据深度挖掘分析加剧数据资源滥用，加大社会治理和国家安全挑战。通过获取用户的地理位置、消费偏好、行为模式等碎片化数据，再利用人工智能技术进行深度挖掘分析，能够预测用户的喜好和习惯，进而对用户进行分类，可实现更加精准的信息推送。基于数据分析的智能推荐可带来用户便利、企业盈利和社会福利，但是也加剧了数据滥用问题。一是在社会消费领域，可带来差异化定价。 “大数据杀熟”实现对部分消费者的过高定价，甚至进行恶意欺人工智能数据安全白皮书（2019 年）中国信息通信研究院 9 诈或误导性宣传，导致消费者的知情权、公平交易权等权利受损。 2018 年，我国滴滴、携程等均爆出类似事件，根据用户特征实现对不同客户的区别定价，社会负面影响巨大。二是在信息传播领域，可引发“信息茧房”效应。人们更多接收满足自己偏好的信息和内容，限于对世界的片面认知，导致社会不同群体的认知鸿沟拉大，个人意志的自由选择受到影响，甚至威胁到社会稳定和国家安全。2018 年曝光的 “Facebook 数据泄露”事件中，美国剑桥分析公司利用广告定向、行为分析等智能算法，推送虚假政治广告，进而形成对选民意识形态和政治观点的干预诱导，影响美国大选、英国脱欧等政治事件走向。基于人工智能技术的数据分析与滥用，给数字社会治理和国家安全等带来严峻安全挑战。人工智能技术可提升网络攻击的智能化水平，进而实施数据智能窃取。一是可用来自动锁定目标，进行数据勒索攻击。人工智能技术可通过对特征库学习自动查找系统漏洞和识别关键目标，提高攻击效率。英国网络安全公司Darktrace分析显示，集成人工智能技术的勒索软件可自动瞄准更具吸引力的目标，劫持工业设备、医疗仪器等相关运行数据勒索赎金，受害者为使系统和设备重新上线运行而被迫支付赎金。二是自动生成大量虚假威胁情报，对分析系统实施攻击。人工智能通过使用机器学习、数据挖掘和自然语言处理等技术处理安全大数据，能够辅助自动化地生产威胁情报，攻击者也可利用相关技术生成大量错误情报以混淆判断。美国 McAfee 公司指出，“提高噪声基底noise floor”技术可对特定环境进行情报轰炸，给威胁情报人工智能数据安全白皮书（2019 年）中国信息通信研究院 10 分析系统的判断模型制造大量的主动错误信息，造成威胁情报过载，迫使系统重新校准以过滤掉假警报，通过这一过程，攻击者可了解防御逻辑并伺机发起真正的攻击，进而窃取系统数据。三是自动识别图像验证码，窃取系统数据。图像验证码是一种防止机器人账户滥用网站或服务的常用验证措施，通过解决视觉难题来验证人类用户，以有效区分拦截恶意程序，保护系统数据安全。但是，人工智能技术已实现对验证码的有效破解。美国Vicarious公司开发的基于概率生成模型的验证码识别算法，在标准的reCAPTCHA测试中，可成功解开三分之二的验证问题 4 。2017 年，我国浙江省破获了全国第一例人工智能犯罪，案件中黑客利用人工智能识别图片验证码的正确率高达 95以上，在此平台被打掉前的 3 个月已经提供验证码识别服务 259亿次。基于人工智能技术的数据深度伪造将威胁网络安全、社会安全和国家安全。人工智能可利用收集的训练数据进行特征学习，生成逼真的虚假信息内容。特别是近年来基于生成对抗网络（GAN）的 “DeepFakes” （深度伪造）技术应用，使得“换脸”虚假视频的制作门槛不断降低，大量深度伪造数据内容开始涌现。我国也出现了徐锦江版“海王” ，杨幂版“黄蓉”等逼真虚假视频。目前，深度伪造 2.0 概念已被提出，相比于之前的换脸，深度伪造2.0可模仿人的行为举止、声音和习惯动作，更难以区分真假。2019 年 6 月，Facebook 一段扎克伯格的假视频传播迅速，视频里的人从长相、声音、穿衣、手势以及说话时的动作神情都与真人无异。深度伪造数据内容的大量生4Dileep George*, Wolfgang Lehrach,et al. A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs 人工智能数据安全白皮书（2019 年）中国信息通信研究院 11 成和传播，将给网络安全、社会安全和国家安全带来严重风险。一是降低生物特征识别技术可信度，提升网络攻击能力。基于图像特征的人脸识别技术和基于声纹的语音识别技术均属于典型的生物特征识别技术，在非接触式身份认证、大流量或自动化安全检测等领域已开展规模化应用。但目前识别伪造音视频存在技术难度，降低了生物特征识别技术的可信度，给网络攻击提供了新手段。二是造成人际间的信任危机，威胁伦理和社会安全。随着换脸换声技术的不断进化，伪造图片和音视频的成本会不断降低，各种恶意伪造的图片和音视频信息将大量涌现，会侵犯公民肖像权等个人权益，甚至用于敲诈勒索、伪造罪证等不法活动，从而造成社会信任危机，对伦理道德和社会稳定构成严重威胁。三是通过制作虚假新闻影响政治舆论，进而威胁国家安全。国内外恶意势力可利用基于人工智能的换脸换声技术伪造政治领袖和公众人物的新闻视频，普通民众根本无法辨别真假，此类虚假视频内容的大量扩散与传播，可对社会舆论生态造成恶劣影响，引发民众骚乱甚至国内动乱，威胁国家安全。2019 年 6 月，由于担心深度伪造对 2020 年美国大选的灾难性影响，美国众议院已经开始考虑修订现行法案，在立法层面打击相关行为。（三）人工智能应用加剧的数据治理挑战人工智能提升数据资源价值，数据权属问题更为突出。一是个人层面，数据权属体现为公民的数据权利，个人隐私保护面临挑战。用户个人隐私信息含金量高，是人工智能技术与产业发展的重要驱动。相关机构在利用用户数据追求自身利益时往往忽视用户个人隐私权人工智能数据安全白皮书（2019 年）中国信息通信研究院 12 益。近年来，个人隐私泄露重大事件连续发生，顺丰快递、华住酒店、万豪酒店等均出现数亿用户信息泄露事件。另外，互联网用户在使用社交平台、网络直播、在线游戏等应用的过程中，会产生海量社交关系数据和用户行为数据等，这类数据在权利归属上存在争议，但已成为人工智能企业进行算法设计和产品研发的重要支撑。二是行业层面，数据权属体现为企业的数据产权，数据垄断损害行业整体发展。人工智能技术使数据经济价值越发凸显，数据已成为企业的核心资产，相关企业积极储备数据资源，并阻止竞争对手获得数据，力图垄断数据资源来最大化企业利益。我国曾爆发华为与腾讯、顺丰与菜鸟之间的数据纠纷事件。数据产权之争将加剧数据垄断。一方面，科技巨头依托网络覆盖和用户规模，加强数据汇聚；另一方面，人工智能中小企业获取数据的渠道受限，数据资源匮乏。企业在数据产权没有被广泛认可，以及数据流动环节存在安全风险的前提下，无论是从维护自身利益角度还是从遵守法律法规角度，都不愿将自身数据进行共享，这将导致初创企业和研究机构在算法设计和优化过程中无数据可用，损害我国人工智能行业整体发展。人工智能凸显数据的战略地位，数据违规跨境冲击国家安全。当前，世界主要国家都制定了人工智能发展战略，对数据的依赖快速上升，数据作为国家基础性战略资源的地位更加突出。为快速积累数据，科技企业通过向消费者提供特定领域免费应用、使用政府公开数据以及进行产业上下游数据协同等方式获取尽可能多数据。以脸书、谷歌为代表的美国科技巨头，依托其庞大用户规模和强大数据抓取工具，人工智能数据安全白皮书（2019 年）中国信息通信研究院 13 在全球范围内进行数据收集，强化数据资源优势，推进自身人工智能发展，加剧数据违规跨境流动风险。与此同时，2018 年 3 月，美国发布澄清境外数据的合法使用法案CLOUD法案，为美国执法机构访问在美国境内运营的企业存储在海外的用户数据提供明确授权，促使数据管辖权和跨境流动争议进一步加大，威胁我国网络主权和国家安全。三、人工智能数据安全应用（一）人工智能与数据安全治理人工智能和数据安全治理互利互补，人工智能技术赋予数据安全治理智慧，数据安全治理为人工智能技术发展提供前驱动力。人工智能技术的发展为数据安全治理提供底层通用技术支撑，取代数据安全治理中大量重复性、长期性、粗略性人类劳动，使数据安全治理向自动化、高效化、精准化、智能化演进。与此同时，数据安全治理工作的开展能提升数据质量，促进数据安全流通和合规使用，为人工智能提供高质量数据集，从而为人工智能技术发展提供前驱动力。具体表现为以下五个方面。一是人工智能技术可更加准确地理解数据，促进数据安全治理精准化。数据量的丰富为人工智能提供特征广泛的训练数据集，使人工智能模型更加精确。算力的提升使人工智能具备实时数据处理能力，支持在更大范围内及时监测和处理数据，并持续改进样本库，减少样本过少或漏报带来的运算误差。以神经网络为代表的的深度学习技术的发展可以大力提升数据分类分级精准度和数据内容识别准确率。例人工智能数据安全白皮书（2019 年）中国信息通信研究院 14 如， 2012年神经网络算法只有 5层，而 2018年可以做到 1200多层，在人脸识别领域最高可达一亿分之一的误识率。二是人工智能技术可取代人类重复性劳动，促进数据安全治理自动化。2018 年李开复在人工智能一书中指出，人工智能将在 15 年内具备取代 40-50岗位的技术能力，主要集中在重复性劳动、有固定台本和对白内容的各种互动、不需与人进行大量面对面交流的工作领域。在数据安全治理领域中，传统的数据特征标注需要大量人力反复筛选和识别，人工智能可以取代人类自动对数据按照内容进行识别和添加标签。在网络安全防护方面，随着网络攻击手段的智能化升级，传统的依赖手动过程以及静态规则和签名的数据传输网络安全保护方法正在失效，人工智能技术可以通过自我学习自动更新安全规则，及时检测出新型网络威胁。三是人工智能技术直击数据安全治理痛点，促进数据安全治理智能化。数据资产不清晰、数据和知识难以关联、数据安全管理策略更新不及时是数据安全治理中常见问题。与传统数据安全治理相比，人工智能技术可通过精准分级分类自动梳理数据资产，基于统一的管理标准形成元数据，通过智能搜索、关联查询手段，形成数据关联关系图谱，对数据安全风险进行智能评估、量化和预测，辅助形成更合理的安全管理策略。例如， IBM的大数据安全智能系统实时运用人工智能技术实现了数据的智能高速查询、实时异常检测、自动确定事件根源并开展核查。腾讯的智能大数据治理系统基于基础知识库实现针对不同类型数据的自动感知、智能推荐转换等智能处理功能，人工智能人工智能数据安全白皮书（2019 年）中国信息通信研究院 15 技术使数据安全治理智能化。四是人工智能技术可提升系统效率，促进数据安全治理高效化。人工智能可以充分利用自然语言处理、图像识别、语音识别、视频处理等技术弥补传统数据处理耗时长、效率低等弱项，提升系统效率。例如人工智能技术可以对非结构化数据进行高效分析处理，将过去需要几周乃至几个月才能完成的工作缩短到几个小时之内完成，使数据安全治理高效化。华为将机器学习技术用于大数据分析平台，其在中国移动等多个项目的实践表明，数据治理效率提升超过 40，数据准备周期从月降为小时级，大数据分析应用上线周期从月降到周，同时高效数据治理也提升了数据质量，高质量数据占比提升 40以上。五是数据安全治理促进高质量数据集生成，驱动人工智能技术发展。高质量数据集是提升人工智能算法准确性、模型合理性和产品先进性的至关重要的因素，只有当人工智能系统能够获取更为准确、及时、一致的高质量数据，才能提供更高效、更可靠的智能化服务。近年来，随着政府、企业对数据质量管理的重视，数据质量工具市场稳步增长。据 Gartner 发布的 2018 年数据库魔力象限报告显示，2017 年数据质量软件工具市场达到 16.1亿美元，比 2016年增长 11.6％。数据安全治理是提升数据质量的必要途径，是促进人工智能全面发展和应用的基础保障。（二）人工智能在数据安全治理中的应用 2018 年 5 月，Gartner 发布数据安全治理（Data Security Governance，简称DSG）框架，提出了从管理层到技术层、从机制体人工智能数据安全白皮书（2019 年）中国信息通信研究院 16 制到技术工具、全方位覆盖整个组织架构的完整数据安全治理链条。 Gartner指出，直接从数据生命周期环节入手并不合理，需要先确定组织架构，建立管理问责制和决策权，对不同等级的风险制定不同的策略，再利用技术工具对数据全生命周期进行安全风险控制管理，最后对安全风险进行评估并回到第一步重新纠编，形成数据安全治理闭环。2018 年 5 月，中国网信联盟指导下的数据安全治理委员会发布数据安全治理白皮书，提出一个通用的数据安全治理框架，将框架分为数据安全治理机制、数据全生命周期管理和数据安全技术部署三个部分。国内外主流数据安全治理框架的思路是相通的，均是以策略机制为入口，以数据全生命周期管理为基础，以技术工具为支撑的多方位治理体系。本白皮书借鉴国内外主流数据安全治理框架并结合人工智能数据安全应用经验，将人工智能在数据安全治理领域的应用分为数据安全策略制定、数据资产安全管理、数据活动安全保护、数据安全事件管理四个阶段。人工智能技术可应用于数据安全治理的各个阶段，但主要是促进细分领域应用优化升级，距离体系化的智能数据安全治理还有很大差距。如图3所示，人工智能数据安全治理细分领域包括数据安全策略、数据分级分类、数据质量管理、数据本体安全保护、数据活动网络安全保护、数据流转行为分析、数据安全风险评估、不良信息治理、互联网反欺诈、打击数据黑产等。人工智能数据安全白皮书（2019 年）中国信息通信研究院 17 图 3 人工智能在数据安全治理中的应用 1 、数据安全策略制定传统的策略制定过程中用来辅助决策的日志数据和警报数量巨大，决策者难以快速处理，因此传统方式主要依赖人的直觉和经验。人工智能技术具备海量数据采集和分析能力，可根据训练模型进行自我学习并做出相应的判断，使管理更精细、决策更智能，因此智能决策系统应用非常广泛。基于人工智能的决策系统能大大提高数据安全治理策略的时效性和合理性，在数据安全风险管理策略、数据合规性要求、分级保护策略的制定等方面辅助管理者快速、科学、合理地制定策略，为数据安全治理提供智能化的解决方案。例如，2017 年 12 月，百分点集团发布智能政府决策系统 Deep Governor，该系统汇聚行业专家知识，结合 6大类 50余种社会经济发展综合决策模型，推动政府科学决策水平和决策能力现代化，助推 “数据治国 ”。 2 、数据资产安全管理一是在数据分级分类方面，可以通过应用机器学习、模式聚类、自然语言处理、语义分析、图像识别等技术，提取数据文件核心信息，人工智能数据安全白皮书（2019 年）中国信息通信研究院 18 对数据按照内容进行梳理，生成标注样本，经过反复的样本训练与模型修正，可以实现对数据自动、精准的分级分类。例如，我国网络安全初创企业思睿嘉得利用无监督机器学习引擎分析大量未经标注的原始文档集，自动按照内容进行主题梳理，并通过人工干预灵活调整语义相似度，获得满意的聚类效果，从而实现对数据的精准分级分类。浙江省旅游信息中心联合厦门杜若科技公司开展了浙江省旅游度假区信息的数据治理试点，将旅游大数据纳入人工智能系统，对结构化数据进行开放式训练,对数据进行分级分类并实现基于自然语言的数据管理。二是数据质量管理方面，在开展数据质量核查过程中，人工智能技术与传统根据预置规则进行核查的方式相结合，可以仅针对少量核心核查规则，利用机器学习算法进行深度分析，定位数据质量原因、预测数据质量问题，形成知识库，进一步增强数据质量管理能力。例如，谷歌将人工智能引入医疗行业，通过重塑医疗数据层级为医疗巨头提供更高质量的结构化数据，创建新数据管道，助力医疗健康数据基础设施建设。亿信华辰的数据质量管理平台 EsDataClean， Inatica 的数据治理工具 Data Director 以及 IBM 的通用数据治理产品 Stewardship Center等均在业界处于领先地位，通过人工智能技术的使用极大减少了人力投入和过程干预，提升了数据质量管理效率，也为后续的模型训练提供了更多高质量数据。 3 、数据活动安全保护一是数据本体安全保护方面，包括数据脱敏、数据防泄漏、数据人工智能数据安全白皮书（2019 年）中国信息通信研究院 19 加密等。数据脱敏方面，在数据分级分类的基础上，结合数据合规性规则智能生成脱敏特征库，并与敏感数据识别智能关联，实现智能发现和自动脱敏，有效降低敏感数据泄露风险。亚马逊的智能识图工具 Rekognition 可以辅助医务人员进行医学图像脱敏。数据防泄漏方面，加州伯克利大学团队运用人工智能技术开发了一款手机 APP，能够自动扫描手机相册内的裸露照片，改为加设密码存在该 APP中，并进一步从相册与云空间删除，彻底防止私密照片外泄。数据加密方面，谷歌大脑成功开发出两个独立的人工智能加密算法,不但能够防范第三方破解，而且还能够自我学习，破解其他人工智能加密算法。二是数据活动网络安全保护方面，基于人工智能的网络安全防护手段相比传统基于静态规则的方法具有持续进化能力。新威胁的产生不断为训练集加入新的数据，通过人工智能算法和模型调优，可以快速查阅每个可疑文件数以百万计的特征，智能识别最轻微的代码冲突；对内外部网络流量中的元数据进行关联分析，实时检测异常流量；利用庞大的关联处理能力并行监测海量数据点，实时生成风险预测，发现并阻止设备或网络攻击。恶意代码分析方面，中科院软件所提出基于文本分类技术的恶意代码检测工具“飞鼠”系统，能够对大量恶意代码样本进行及时、高效和准确检测，同时也具有一定的泛化能力，能够检测一定的未知样本。大连市公安局提出了基于人工智能技术的恶意代码变种检测技术，将恶意代码映射为图像,提取图像特征,建立人工智能模型,利用恶意代码家族图像样本集训练检测模型,能够快速识别恶意代码变种及其人工智能数据安全白皮书（2019 年）中国信息通信研究院 20 家族,有效提高了检测效率和准确率。边界安全防护方面，2018年 11月，华为发布业界首款智能防火墙，内置基于人工智能的高级威胁检测引擎，支持加密流量免解密威胁检测，通过联动云端为企

注意事项

本文（人工智能数据安全白皮书(2019).pdf）为本站会员（南极冰川）主动上传，环境100文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知环境100文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？