欢迎来到环境100文库! | 帮助中心 分享价值,成长自我!

环境100文库

换一换
首页 环境100文库 > 资源分类 > PDF文档下载
 

人工智能数据安全白皮书(2019).pdf

  • 资源ID:10012       资源大小:1.21MB        全文页数:51页
  • 资源格式: PDF        下载权限:游客/注册会员/VIP会员    下载费用:10碳币 【人民币10元】
快捷注册下载 游客一键下载
会员登录下载
三方登录下载: 微信开放平台登录 QQ登录   微博登录  
下载资源需要10碳币 【人民币10元】
邮箱/手机:
温馨提示:
支付成功后,系统会自动生成账号(用户名和密码都是您填写的邮箱或者手机号),方便下次登录下载和查询订单;
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,既可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

人工智能数据安全白皮书(2019).pdf

人 工 智 能 数 据 安全 白 皮书 中国信息通信研究院 安全研究所 2019年8月 版 权 声 明 本白皮书版权属于中国信息通信研究院安全研究所,并 受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者 观点的,应注明“来源中国信息通信研究院安全研究所” 。 违反上述声明者,本单位将追究其相关法律责任。 前 言 人工智能作为引领新一轮科技革命和产业变革的战略性技术, 已 成为世界主要国家谋求新一轮国家科技竞争主导权的关键领域。 随着 政府人工智能战略布局的落地实施, 全球人工智能发展正进入技术创 新迭代持续加速和融合应用拓展深化的新阶段, 深刻改变着国家政治、 经济、社会、国防等领域的运行模式,对人类生产生活带来翻天覆地 的变化。 数据作为驱动本轮人工智能浪潮全面兴起的三大基础要素之一, 数据安全风险已成为影响人工智能安全发展的关键因素。与此同时, 人工智能应用也给数据安全带来严峻挑战,如何应对人工智能场景下 的数据安全风险日渐成为国际人工智能治理的重要议题。 部分国家已 率先探索人工智能数据安全风险的前瞻研究和主动预防, 并积极推动 人工智能在数据安全领域应用, 力求实现人工智能与数据安全的良性 互动发展。 本白皮书从人工智能数据安全的内涵出发, 首次提出人工智能数 据安全的体系架构, 在系统梳理人工智能数据安全风险和安全应用情 况的基础上,总结了国内外人工智能数据安全治理现状,研究提出了 我国人工智能数据安全治理建议。 目 录 一、 人工智能 数据安 全 概述. 1 (一) 人工智能 安全 1 (二) 人工智能 数据安 全 内涵. 2 (三) 人工智能 数据安 全 体系架构 . 3 二、 人工智能 数据安 全 风险. 5 (一) 人工智能 自身面 临 的数据安 全风险 . 5 (二) 人工智能 应用导 致 的数据安 全风险 . 7 (三) 人工智能 应用加 剧 的数据治 理挑战 11 三、 人工智能 数据安 全 应用 13 (一) 人工智能 与数据 安 全治理 13 (二) 人工智能 在数据 安 全治理中 的应用 15 四、 国内外人 工智能 数 据安全治 理动态 23 (一) 国内外人 工智能 数 据安全战 略规划 情 况 24 (二) 国内外人 工智能 数 据安全伦 理规范 情 况 28 (三) 国内外人 工智能 数 据安全法 律制定 情 况 30 (四) 国内外人 工智能 数 据安全技 术发展 情 况 32 (五) 国内外人 工智能 数 据安全标 准规范 情 况 34 五、 人工智能 数据安 全 治理建议 36 (一) 明晰发展 与安全 并 举的治理 思路 36 (二) 引导社会 遵循人 工 智能伦理 规范 37 (三) 建立人工 智能数 据 安全法律 法规 37 (四) 完善人工 智能数 据 安全监管 措施 38 (五) 健全人工 智能数 据 安全标准 体系 39 (六) 创新人工 智能数 据 安全技术 手段 39 (七) 培养复合 人工智 能 数据安全 人才 40 人工智能数据安全白皮书(2019 年) 中国信息通信研究院 1 一、 人 工智能 数据安全 概述 (一) 人工智能安全 当前,由人工智能引领的新一轮科技革命和产业变革方兴未艾, 正在对经济发展、 社会进步、 国家治理等方面产生重大而深远的影响。 世界主要国家和全球产业界高度重视并积极布局, 人工智能迎来新的 发展浪潮。然而,技术进步往往是一把“双刃剑” ,本项目组在人 工智能安全白皮书(2018年) 中提出人工智能因其技术的局限性和 应用的广泛性,给网络安全、数据安全、算法安全和信息安全带来风 险,并对国家政治、军事和社会安全带来诸多挑战。与此同时,人工 智能因其突出的数据分析、知识提取、自主学习、智能决策等能力, 可在网络防护、数据管理、信息审查、智能安防、金融风控、舆情监 测等网络信息安全领域和社会公共安全领域有许多创新性应用。 为有 效管控人工智能安全风险并积极促进人工智能技术在安全领域应用, 可从法规政策、标准规范、技术手段、安全评估、人才队伍、可控生 态等方面构建人工智能安全管理体系。 图 1 人 工 智能 安全体 系架构 图 人工智能数据安全白皮书(2019 年) 中国信息通信研究院 2 (二) 人 工 智 能 数 据 安全 内 涵 1 、人工智能 与数据 人工智能 与 数据 相 辅相成、 互促 发展 。 一方面, 海量 优质 数据助 力人工智 能发展。现阶段,以深度学习为代表的人工智能算法设计与 优化需要以海量优质数据为驱动。谷歌研究提出,随着训练数据数量 级的增加,相同机器视觉算法模型的性能呈线性上升。牛津大学国际 发展研究中心将大数据质量和可用性作为评价政府人工智能准备指 数的重要考察项 1 。美国欧亚集团咨询公司将数据数量和质量视为衡 量人工智能发展潜力的重要评价指标 2 。 另 一 方 面 , 人 工 智 能 显 著 提 升数据收 集管理 能力 和数据 挖掘 利 用 水平。 人工智能在人们日常生活 和企业生产经营中大规模应用,获取、收集和分析更多用户和企业数 据,促进人工智能语义分析、内容理解、模式识别等方面技术能力进 一步优化,更好地实现对收集的海量数据进行快速分析和分类管理。 而且,人工智能对看似毫不相关的海量数据进行深度挖掘分析,发现 经济社会运行规律、用户心理和行为特征等新知识。基于新知识,人 工智能进一步提升对未来的预测和对现实问题的实时决策能力, 提升 数据资源利用价值,优化企业经营决策、创新经济发展方式、完善社 会治理体系。 2 、人工智能 数据安全 数据安全 是人工 智 能安全的 关键。 数据成为本轮人工智能浪潮兴 起发展的关键要素。 人工智能算法设计与优化需要以海量优质数据资12019 年政府人工智能准备 指数 2中国拥抱 AI 人工智能数据安全白皮书(2019 年) 中国信息通信研究院 3 源为基础。 数据质量和安全直接影响人工智能系统算法模型的准确性, 进而威胁人工智能应用安全。与此同时,人工智能显著提升数据收集 管理能力和数据价值挖掘利用水平。 人工智能这些能力一旦被不当或 恶意利用,不仅威胁个人隐私和企业资产安全,甚至影响社会稳定和 国家安全。而且,人工智能、大数据与实体经济不断深度融合,成为 推动数字经济和智能社会发展的关键要素。 人工智能大规模应用间接 促使数据权属问题、数据违规跨境等数据治理挑战进一步加剧。 人工智能 为数据 安全 治理带 来新机 遇。 人工智能驱动数据安全治 理加速向自动化、智能化、高效化、精准化方向演进。人工智能自动 学习和自主决策能力可有效缓解现有数据安全技术手段对专业人员 分析判断的高度依赖, 实现对动态变化数据安全风险的自动和智能监 测防护。 人工智能卓越的海量数据处理能力可有效弥补现有数据安全 技术手段数据处理能力不足的缺陷, 实现对大规模数据资产和数据活 动的高效、精准管理和保护。人工智能赋能数据安全治理,助力数据 大规模安全应用,将有力推动经济社会数字化转型升级。 基于以上分析,项目组认为,人工智能数据安全内涵包含一是 应对人工智能自身面临和应用导致及加剧的数据安全风险与治理挑 战;二是促进人工智能在数据安全领域中的应用;三是构建人工智能 数据安全治理体系,保障人工智能安全稳步发展。 (三) 人 工 智 能 数 据 安全 体 系 架 构 人工智能数据安全白皮书(2019 年) 中国信息通信研究院 4 人 工 智 能 数 据 安 全 风 险 面 临 的 数 据 安 全 风 险 数 据 过 度 采 集 数 据 过 度 采 集 数 据 资 源 滥 用 数 据 资 源 滥 用 数 据 智 能 窃 取 数 据 智 能 窃 取数 据 深 度 伪 造 数 据 深 度 伪 造 导 致 的 数 据 安 全 风 险 训 练 数 据 污 染 训 练 数 据 污 染 运 行 数 据 异 常 运 行 数 据 异 常 数 据 逆 向 还 原 数 据 逆 向 还 原 数 据 偏 见 歧 视 数 据 偏 见 歧 视 数 据 权 属 问 题 数 据 权 属 问 题 加 剧 的 数 据 治 理 挑 战 人 工 智 能 数 据 安 全 应 用 精 准 化 数 据 安 全 策 略 制 定 精 准 化 数 据 安 全 策 略 制 定 自 动 化 数 据 资 产 安 全 管 理 自 动 化 数 据 资 产 安 全 管 理 智 能 化 数 据 活 动 安 全 保 护 智 能 化 数 据 活 动 安 全 保 护 高 效 化 数 据 安 全 事 件 管 理 高 效 化 数 据 安 全 事 件 管 理 国 家 战 略 国 家 战 略 伦 理 规 范 伦 理 规 范 法 律 法 规 法 律 法 规 监 管 政 策 监 管 政 策 标 准 规 范 标 准 规 范 技 术 手 段 技 术 手 段 人 工 智 能 数 据 安 全 治 理 开 源 框 架 风 险 开 源 框 架 风 险 人 才 队 伍 人 才 队 伍 数 据 违 规 跨 境 数 据 违 规 跨 境图 2 人 工 智能 数据安 全体系 架构图 基于对人工智能数据安全内涵分析, 项目组提出覆盖人工智能数 据安全风险、人工智能数据安全应用、人工智能数据安全治理三个维 度的人工智能数据安全体系架构。其中,人工智能数据安全风险是人 工智能数据安全治理的起因, 包含人工智能自身面临的数据安全风 险,人工智能应用导致的数据安全风险,人工智能应用加剧的数据治 理挑战。 本白皮书重点分析人工智能相关特有数据安全风险与治理挑 战。 人工智能数据安全应用是人工智能技术用于数据安全治理, 包含 人工智能技术在精准化数据安全策略制定、 自动化数据资产安全管理、 智能化数据活动安全保护以及高效化数据安全事件管理方面的应用。 人工智能数据安全治理是应对人工智能数据安全风险和促进人工智人工智能数据安全白皮书(2019 年) 中国信息通信研究院 5 能数据安全应用的体系化方案, 包含国家战略、 伦理规范、 法律法规、 监管政策、标准规范、技术手段、人才队伍等方面。 二、 人 工智能 数据安全 风险 (一) 人 工 智 能 自 身 面临 的 数 据 安 全 风险 训练数据 污染可 导 致人工智 能决策 错 误 。 数据投毒通过在训练数 据里加入伪装数据、恶意样本等破坏数据的完整性,进而导致训练的 算法模型决策出现偏差。数据投毒主要有两种攻击方式 一种是采用 模型偏斜方式,主要攻击目标是训练数据样本,通过污染训练数据达 到改变分类器分类边界的目的。例如,模型偏斜污染训练数据可欺骗 分类器将特定的恶意二进制文件标记为良性。 另外一 种是采用反馈误 导方式,主要攻击目标是人工智能的学习模型本身,利用模型的用户 反馈机制发起攻击,直接向模型“注入”伪装的数据或信息,误导人 工智能做出错误判断。随着人工智能与实体经济深度融合,医疗、交 通、金融等行业训练数据集建设需求迫切,这就为恶意、伪造数据的 注入提供了机会, 使得从训练样本环节发动网络攻击成为最直接有效 的方法,潜在危害巨大。在自动驾驶领域,数据投毒可导致车辆违反 交通规则甚至造成交通事故;在军事领域,通过信息伪装的方式可诱 导自主性武器启动或攻击,从而带来毁灭性风险。 运行阶段 的数据 异 常可导致 智能系 统 运行错误 。 一是人为构造对 抗样本攻击,导致智能系统产生错误的决策结果 。人工智能算法模型 主要反映了数据关联性和特征统计,而没有真正获取数据因果关系。 针对算法模型这一缺陷, 对抗样本通过对数据输入样例添加难以察觉人工智能数据安全白皮书(2019 年) 中国信息通信研究院 6 的扰动,使算法模型以高置信度给出一个错误的输出。对抗样本攻击 可实现逃避检测,例如在生物特征识别应用场景中,对抗样本攻击可 欺骗基于人工智能技术的身份鉴别、活体检测系统。2019 年 4 月, 比利时鲁汶大学研究人员发现, 借助一张设计的打印图案就可以避开 人工智能视频监控系统。 二是动态环境的非常规输入可导致智能系统 运行错误。人工智能决策严重依赖训练数据特征分布性和完备性,人 工标记数据覆盖不全、 训练数据与测试数据同质化等原因常常导致人 工智能算法泛化能力差, 智能系统在动态环境实际使用中决策可能出 现错误。 特斯拉汽车自动驾驶系统曾因无法识别蓝天背景下的白色货 车,致使发生致命交通事故。 模型窃取 攻击 可 对 算法模型 的数据 进行 逆向还 原。 人工智能算法 模型的训练过程依托训练数据, 并且在运行过程中会进一步采集数据 进行模型优化,相关数据可能涉及到隐私或敏感信息,所以算法模型 的机密性非常重要。但是,算法模型在部署应用中需要将公共访问接 口发布给用户使用, 攻击者可通过公共访问接口对算法模型进行黑盒 访问,依据输入信息和输出信息映射关系,在没有算法模型任何先验 知识(训练数据、模型参数等)情况下,构造出与目标模型相似度非 常高的模型,实现对算法模型的窃取,进而还原出模型训练和运行过 程中的数据以及相关隐私信息。新加坡国立大学Reza Shokri等针对 机器学习模型的隐私泄露问题,提出了一种成员推理攻击,在对模型 参数和结构知之甚少的情况下, 可以推断某一样本是否在模型的训练人工智能数据安全白皮书(2019 年) 中国信息通信研究院 7 数据集中 3 。 开源学习 框架存 在 安全风险, 可导致 人工智能 系统数 据 泄露。人 工智能开源学习框架实现了基础算法的模块化封装, 可以让应用开发 人员无需关注底层实现细节,大大提高了人工智能应用的开发效率。 谷歌、 微软、 亚马逊、 脸书等企业都发布了自己的人工智能学习框架, 在全球得到广泛应用。但是,人工智能开源学习框架集成了大量的第 三方软件包和依赖库资源, 相关组件缺乏严格的测试管理和安全认证, 存在未知安全漏洞。近年来,360、腾讯等企业安全团队曾多次发现 TensorFlow、 Caffe、 Torch等深度学习框架及其依赖库的安全漏洞, 攻击者可利用相关漏洞篡改或窃取人工智能系统数据。 (二) 人 工 智 能 应 用 导致 的 数 据 安 全 风险 人工智能 应用可 导 致个人 数 据过度 采 集 , 加剧隐 私 泄露 风险。随 着各类智能设备(如智能手环、智能音箱)和智能系统(如生物特征 识别系统、智能医疗系统)的应用普及,人工智能设备和系统对个人 信息采集更加直接与全面。相较于互联网对用户上网习惯、消费记录 等信息采集,人工智能应用可采集用户人脸、指纹、声纹、虹膜、心 跳、基因等具有强个人属性的生物特征信息。这些信息具有唯一性和 不变性,一旦被泄露或者滥用会对公民权益将造成严重影响。2018 年8月,腾讯安全团队发现亚马逊智能音箱后门,可实现远程窃听并 录音。 2019年 2月, 我国人脸识别公司深网视界曝出数据泄露事件, 超过250万人数据、680万条记录被泄露,其中包括身份证信息、人3Reza Shokri, Marco Stronati, Congzheng Song, et al.Membership Inference Attacks Against Machine Learning Models 人工智能数据安全白皮书(2019 年) 中国信息通信研究院 8 脸识别图像及 GPS位置记录等。鉴于对个人隐私获取的担忧,智能安 防的应用在欧美国家存在较大争议,2019 年 7 月,继旧金山之后, 萨默维尔市成为美国第二个禁止人脸识别的城市。 人工智能 放大数 据 偏见 歧视 影响 , 威 胁社会公 平正义。当前,人 工智能技术已应用于智慧政务、智慧金融等领域,成为社会治理的重 要辅助手段。但是,人工智能训练数据在分布性上往往存在偏差,隐 藏特定的社会价值倾向,甚至是社会偏见。例如,海量互联网数据更 多体现我国经济发达地区、青壮年网民特征,而对边远地区以及老幼 贫弱人群的特征无法有效覆盖。 人工智能系统如果受到训练数据潜在 的社会偏见或歧视影响,其决策结果势必威胁人类社会的公平正义。 在社会招聘领域,美国 Kronos 公司的人工智能雇佣辅助系统让少数 族裔、女性或者有心理疾病史的人更难找到工作;在金融征信领域, 科技金融公司 Zest的人工智能信用评估平台 ZAML,采集分析用户网 络行为来判定用户的信用值, 曾经错误判定不能熟练使用英语的移民 群体存在信用问题。 人工智能 技术的 数 据深度挖 掘 分析 加 剧数据资 源 滥用 , 加大 社会 治理和国 家安全 挑 战 。通过获取用户的地理位置、消费偏好、行为模 式等碎片化数据,再利用人工智能技术进行深度挖掘分析,能够预测 用户的喜好和习惯,进而对用户进行分类,可实现更加精准的信息推 送。 基于数据分析的智能推荐可带来用户便利、 企业盈利和社会福利, 但是也加剧了数据滥用问题。 一是在社会消费领域,可带来差异化定 价。 “大数据杀熟”实现对部分消费者的过高定价,甚至进行恶意欺人工智能数据安全白皮书(2019 年) 中国信息通信研究院 9 诈或误导性宣传, 导致消费者的知情权、 公平交易权等权利受损。 2018 年,我国滴滴、携程等均爆出类似事件,根据用户特征实现对不同客 户的区别定价, 社会负面影响巨大。 二是在信息传播领域, 可引发“信 息茧房”效应。人们更多接收满足自己偏好的信息和内容,限于对世 界的片面认知,导致社会不同群体的认知鸿沟拉大,个人意志的自由 选择受到影响,甚至威胁到社会稳定和国家安全。2018 年曝光的 “Facebook 数据泄露”事件中,美国剑桥分析公司利用广告定向、 行为分析等智能算法,推送虚假政治广告,进而形成对选民意识形态 和政治观点的干预诱导,影响美国大选、英国脱欧等政治事件走向。 基于人工智能技术的数据分析与滥用, 给数字社会治理和国家安全等 带来严峻安全挑战。 人工智能 技术可 提升 网络攻 击的智 能 化 水平, 进而实 施数据 智能 窃取。 一是可用来自动锁定目标,进行数据勒索攻击。人工智能技术 可通过对特征库学习自动查找系统漏洞和识别关键目标, 提高攻击效 率。英国网络安全公司Darktrace分析显示,集成人工智能技术的勒 索软件可自动瞄准更具吸引力的目标,劫持工业设备、医疗仪器等相 关运行数据勒索赎金, 受害者为使系统和设备重新上线运行而被迫支 付赎金。 二是自动生成大量虚假威胁情报,对分析系统实施攻击。人 工智能通过使用机器学习、 数据挖掘和自然语言处理等技术处理安全 大数据,能够辅助自动化地生产威胁情报,攻击者也可利用相关技术 生成大量错误情报以混淆判断。美国 McAfee 公司指出,“提高噪声 基底noise floor”技术可对特定环境进行情报轰炸,给威胁情报人工智能数据安全白皮书(2019 年) 中国信息通信研究院 10 分析系统的判断模型制造大量的主动错误信息,造成威胁情报过载, 迫使系统重新校准以过滤掉假警报,通过这一过程,攻击者可了解防 御逻辑并伺机发起真正的攻击,进而窃取系统数据。 三是自动识别图 像验证码,窃取系统数据。图像验证码是一种防止机器人账户滥用网 站或服务的常用验证措施,通过解决视觉难题来验证人类用户,以有 效区分拦截恶意程序,保护系统数据安全。但是,人工智能技术已实 现对验证码的有效破解。 美国Vicarious公司开发的基于概率生成模 型的验证码识别算法,在标准的reCAPTCHA测试中,可成功解开三分 之二的验证问题 4 。2017 年,我国浙江省破获了全国第一例人工智能 犯罪,案件中黑客利用人工智能识别图片验证码的正确率高达 95以 上,在此平台被打掉前的 3 个月已经提供验证码识别服务 259亿次。 基于人工 智能技术 的数据深 度伪造 将 威胁网络 安全、 社会 安全和 国家安全。人工智能可利用收集的训练数据进行特征学习,生成逼真 的虚假信息内容。特别是近年来基于生成对抗网络(GAN)的 “DeepFakes” (深度伪造)技术应用,使得“换脸”虚假视频的制作 门槛不断降低,大量深度伪造数据内容开始涌现。我国也出现了徐锦 江版“海王” ,杨幂版“黄蓉”等逼真虚假视频。目前,深度伪造 2.0 概念已被提出,相比于之前的换脸,深度伪造2.0可模仿人的行为举 止、声音和习惯动作,更难以区分真假。2019 年 6 月,Facebook 一 段扎克伯格的假视频传播迅速,视频里的人从长相、声音、穿衣、手 势以及说话时的动作神情都与真人无异。 深度伪造数据内容的大量生4Dileep George*, Wolfgang Lehrach,et al. A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs 人工智能数据安全白皮书(2019 年) 中国信息通信研究院 11 成和传播,将给网络安全、社会安全和国家安全带来严重风险。 一是 降低生物特征识别技术可信度,提升网络攻击能力。基于图像特征的 人脸识别技术和基于声纹的语音识别技术均属于典型的生物特征识 别技术,在非接触式身份认证、大流量或自动化安全检测等领域已开 展规模化应用。但目前识别伪造音视频存在技术难度,降低了生物特 征识别技术的可信度,给网络攻击提供了新手段。 二是造成人际间的 信任危机,威胁伦理和社会安全。随着换脸换声技术的不断进化,伪 造图片和音视频的成本会不断降低, 各种恶意伪造的图片和音视频信 息将大量涌现,会侵犯公民肖像权等个人权益,甚至用于敲诈勒索、 伪造罪证等不法活动,从而造成社会信任危机,对伦理道德和社会稳 定构成严重威胁。 三是通过制作虚假新闻影响政治舆论,进而威胁国 家安全。 国内外恶意势力可利用基于人工智能的换脸换声技术伪造政 治领袖和公众人物的新闻视频,普通民众根本无法辨别真假,此类虚 假视频内容的大量扩散与传播,可对社会舆论生态造成恶劣影响,引 发民众骚乱甚至国内动乱,威胁国家安全。2019 年 6 月,由于担心 深度伪造对 2020 年美国大选的灾难性影响,美国众议院已经开始考 虑修订现行法案,在立法层面打击相关行为。 (三) 人工智能应用加剧 的 数 据 治 理 挑战 人工智能 提升数据 资源价值 , 数据权 属问题更 为突出。 一是个人 层面,数据权属体现为公民的数据权利,个人隐私保护面临挑战。用 户个人隐私信息含金量高,是人工智能技术与产业发展的重要驱动。 相关机构在利用用户数据追求自身利益时往往忽视用户个人隐私权人工智能数据安全白皮书(2019 年) 中国信息通信研究院 12 益。 近年来, 个人隐私泄露重大事件连续发生, 顺丰快递、 华住酒店、 万豪酒店等均出现数亿用户信息泄露事件。另外,互联网用户在使用 社交平台、网络直播、在线游戏等应用的过程中,会产生海量社交关 系数据和用户行为数据等,这类数据在权利归属上存在争议,但已成 为人工智能企业进行算法设计和产品研发的重要支撑。 二 是行业层 面, 数据权属体现为企业的数据产权,数据垄断损害行业整体发展。人工 智能技术使数据经济价值越发凸显,数据已成为企业的核心资产,相 关企业积极储备数据资源,并阻止竞争对手获得数据,力图垄断数据 资源来最大化企业利益。我国曾爆发华为与腾讯、顺丰与菜鸟之间的 数据纠纷事件。数据产权之争将加剧数据垄断。一方面,科技巨头依 托网络覆盖和用户规模,加强数据汇聚;另一方面,人工智能中小企 业获取数据的渠道受限,数据资源匮乏。企业在数据产权没有被广泛 认可,以及数据流动环节存在安全风险的前提下,无论是从维护自身 利益角度还是从遵守法律法规角度,都不愿将自身数据进行共享,这 将导致初创企业和研究机构在算法设计和优化过程中无数据可用, 损 害我国人工智能行业整体发展。 人工智能 凸显数据 的战略地 位 , 数据 违规跨境 冲击国 家 安全。当 前,世界主要国家都制定了人工智能发展战略,对数据的依赖快速上 升, 数据作为国家基础性战略资源的地位更加突出。 为快速积累数据, 科技企业通过向消费者提供特定领域免费应用、 使用政府公开数据以 及进行产业上下游数据协同等方式获取尽可能多数据。以脸书、谷歌 为代表的美国科技巨头,依托其庞大用户规模和强大数据抓取工具,人工智能数据安全白皮书(2019 年) 中国信息通信研究院 13 在全球范围内进行数据收集,强化数据资源优势,推进自身人工智能 发展,加剧数据违规跨境流动风险。与此同时,2018 年 3 月,美国 发布澄清境外数据的合法使用法案CLOUD法案,为美国执法机 构访问在美国境内运营的企业存储在海外的用户数据提供明确授权, 促使数据管辖权和跨境流动争议进一步加大, 威胁我国网络主权和国 家安全。 三、 人 工智能 数据安全 应用 (一) 人 工 智 能 与 数 据安 全 治 理 人工智能 和数据 安 全 治理互 利互补 , 人 工 智能技 术 赋予 数 据安全 治理智慧, 数据 安 全治理为 人工智 能 技术 发展 提供 前 驱 动力。人工智 能技术的发展为数据安全治理提供底层通用技术支撑, 取代数据安全 治理中大量重复性、长期性、粗略性人类劳动,使数据安全治理向自 动化、高效化、精准化、智能化演进。与此同时,数据安全治理工作 的开展能提升数据质量,促进数据安全流通和合规使用,为人工智能 提供高质量数据集,从而为人工智能技术发展提供前驱动力。具体表 现为以下五个方面。 一是人工 智能技 术 可更加准 确地 理 解 数据 , 促 进数据 安全 治理精 准化。数据量的丰富为人工智能提供特征广泛的训练数据集,使人工 智能模型更加精确。算力的提升使人工智能具备实时数据处理能力, 支持在更大范围内及时监测和处理数据,并持续改进样本库,减少样 本过少或漏报带来的运算误差。 以神经网络为代表的的深度学习技术 的发展可以大力提升数据分类分级精准度和数据内容识别准确率。 例人工智能数据安全白皮书(2019 年) 中国信息通信研究院 14 如, 2012年神经网络算法只有 5层, 而 2018年可以做到 1200多层, 在人脸识别领域最高可达一亿分之一的误识率。 二是人工 智能技 术 可取代 人 类重复 性 劳动, 促 进数据 安全 治理自 动化。2018 年李开复在人工智能一书中指出,人工智能将在 15 年内具备取代 40-50岗位的技术能力,主要集中在重复性劳动、有 固定台本和对白内容的各种互动、 不需与人进行大量面对面交流的工 作领域。在数据安全治理领域中,传统的数据特征标注需要大量人力 反复筛选和识别, 人工智能可以取代人类自动对数据按照内容进行识 别和添加标签。在网络安全防护方面,随着网络攻击手段的智能化升 级, 传统的依赖手动过程以及静态规则和签名的数据传输网络安全保 护方法正在失效, 人工智能技术可以通过自我学习自动更新安全规则, 及时检测出新型网络威胁。 三是人工 智能技 术 直击数据 安全治理痛点, 促 进数据 安全 治理智 能化。数据资产不清晰、数据和知识难以关联、数据安全管理策略更 新不及时是数据安全治理中常见问题。与传统数据安全治理相比,人 工智能技术可通过精准分级分类自动梳理数据资产, 基于统一的管理 标准形成元数据,通过智能搜索、关联查询手段,形成数据关联关系 图谱,对数据安全风险进行智能评估、量化和预测,辅助形成更合理 的安全管理策略。例如, IBM的大数据安全智能系统实时运用人工智 能技术实现了数据的智能高速查询、实时异常检测、自动确定事件根 源并开展核查。 腾讯的智能大数据治理系统基于基础知识库实现针对 不同类型数据的自动感知、智能推荐转换等智能处理功能,人工智能人工智能数据安全白皮书(2019 年) 中国信息通信研究院 15 技术使数据安全治理智能化。 四 是人 工智能 技术可 提升 系统效 率 ,促 进数 据 安全 治理 高 效化 。 人工智能可以充分利用自然语言处理、图像识别、语音识别、视频处 理等技术弥补传统数据处理耗时长、效率低等弱项,提升系统效率。 例如人工智能技术可以对非结构化数据进行高效分析处理, 将过去需 要几周乃至几个月才能完成的工作缩短到几个小时之内完成, 使数据 安全治理高效化。华为将机器学习技术用于大数据分析平台,其在中 国移动等多个项目的实践表明,数据治理效率提升超过 40,数据准 备周期从月降为小时级,大数据分析应用上线周期从月降到周,同时 高效数据治理也提升了数据质量,高质量数据占比提升 40以上。 五是数据 安全治 理 促进高质 量数据 集 生成, 驱动 人工 智能 技术 发 展。高质量数据集是提升人工智能算法准确性、模型合理性和产品先 进性的至关重要的因素,只有当人工智能系统能够获取更为准确、及 时、一致的高质量数据,才能提供更高效、更可靠的智能化服务。近 年来,随着政府、企业对数据质量管理的重视,数据质量工具市场稳 步增长。据 Gartner 发布的 2018 年数据库魔力象限报告显示,2017 年数据质量软件工具市场达到 16.1亿美元, 比 2016年增长 11.6% 。 数据安全治理是提升数据质量的必要途径, 是促进人工智能全面发展 和应用的基础保障。 (二) 人 工 智 能 在 数 据安 全 治 理 中 的 应用 2018 年 5 月,Gartner 发布数据安全治理(Data Security Governance,简称DSG)框架,提出了从管理层到技术层、从机制体人工智能数据安全白皮书(2019 年) 中国信息通信研究院 16 制到技术工具、全方位覆盖整个组织架构的完整数据安全治理链条。 Gartner指出,直接从数据生命周期环节入手并不合理,需要先确定 组织架构,建立管理问责制和决策权,对不同等级的风险制定不同的 策略,再利用技术工具对数据全生命周期进行安全风险控制管理,最 后对安全风险进行评估并回到第一步重新纠编, 形成数据安全治理闭 环。2018 年 5 月,中国网信联盟指导下的数据安全治理委员会发布 数据安全治理白皮书 ,提出一个通用的数据安全治理框架,将框 架分为数据安全治理机制、 数据全生命周期管理和数据安全技术部署 三个部分。国内外主流数据安全治理框架的思路是相通的,均是以策 略机制为入口,以数据全生命周期管理为基础,以技术工具为支撑的 多方位治理体系。 本 白皮书 借 鉴 国 内 外 主 流 数 据 安 全 治 理 框 架 并 结 合 人 工 智 能 数 据安全应 用经验 , 将 人工智能 在 数据 安 全治理领域 的应 用 分为 数据 安 全策略制 定、 数 据 资产安全 管理、 数 据活动安 全保护 、 数据安全 事件 管理四个 阶段。 人工 智能技 术可应 用 于 数据安 全治理 的 各个阶段, 但 主要是促进 细分 领 域 应用优 化升级 , 距 离体系化 的 智能 数 据安全治 理 还有很大 差距 。如图3所示,人工智能数据安全治理细分领域包括数 据安全策略、数据分级分类、数据质量管理、数据本体安全保护、数 据活动网络安全保护、数据流转行为分析、数据安全风险评估、不良 信息治理、互联网反欺诈、打击数据黑产等。 人工智能数据安全白皮书(2019 年) 中国信息通信研究院 17 图 3 人 工 智能 在数据 安全治 理中的 应用 1 、数据安全 策略制定 传统的策略制定过程中用来辅助决策的日志数据和警报数量巨 大,决策者难以快速处理,因此传统方式主要依赖人的直觉和经验。 人工智能技术具备海量数据采集和分析能力, 可根据训练模型进行自 我学习并做出相应的判断,使管理更精细、决策更智能,因此智能决 策系统应用非常广泛。 基于人工智能的决策系统能大大提高数据安全 治理策略的时效性和合理性,在数据安全风险管理策略、数据合规性 要求、分级保护策略的制定等方面辅助管理者快速、科学、合理地制 定策略,为数据安全治理提供智能化的解决方案。例如,2017 年 12 月,百分点集团发布智能政府决策系统 Deep Governor,该系统汇聚 行业专家知识,结合 6大类 50余种社会经济发展综合决策模型,推 动政府科学决策水平和决策能力现代化,助推 “数据治国 ”。 2 、数据资产 安全管理 一 是在 数据分 级分类 方面 ,可以通过应用机器学习、模式聚类、 自然语言处理、 语义分析、 图像识别等技术, 提取数据文件核心信息,人工智能数据安全白皮书(2019 年) 中国信息通信研究院 18 对数据按照内容进行梳理,生成标注样本,经过反复的样本训练与模 型修正,可以实现对数据自动、精准的分级分类。例如,我国网络安 全初创企业思睿嘉得利用无监督机器学习引擎分析大量未经标注的 原始文档集,自动按照内容进行主题梳理,并通过人工干预灵活调整 语义相似度, 获得满意的聚类效果, 从而实现对数据的精准分级分类。 浙江省旅游信息中心联合厦门杜若科技公司开展了浙江省旅游度假 区信息的数据治理试点,将旅游大数据纳入人工智能系统,对结构化 数据进行开放式训练,对数据进行分级分类并实现基于自然语言的数 据管理。 二是数据 质量管 理 方面,在开展数据质量核查过程中,人工智能 技术与传统根据预置规则进行核查的方式相结合, 可以仅针对少量核 心核查规则,利用机器学习算法进行深度分析,定位数据质量原因、 预测数据质量问题,形成知识库,进一步增强数据质量管理能力。例 如,谷歌将人工智能引入医疗行业,通过重塑医疗数据层级为医疗巨 头提供更高质量的结构化数据,创建新数据管道,助力医疗健康数据 基础设施建设。亿信华辰的数据质量管理平台 EsDataClean, Inatica 的数据治理工具 Data Director 以及 IBM 的通用数据治理 产品 Stewardship Center等均在业界处于领先地位,通过人工智能技 术的使用极大减少了人力投入和过程干预, 提升了数据质量管理效率, 也为后续的模型训练提供了更多高质量数据。 3 、数据 活动 安全保 护 一是数据 本体安 全 保护方面 , 包括 数 据脱敏 、 数据防 泄 漏 、 数据人工智能数据安全白皮书(2019 年) 中国信息通信研究院 19 加密等。 数据脱 敏 方面,在数据分级分类的基础上,结合数据合规性 规则智能生成脱敏特征库,并与敏感数据识别智能关联,实现智能发 现和自动脱敏,有效降低敏感数据泄露风险。亚马逊的智能识图工具 Rekognition 可以辅助医务人员进行医学图像脱敏。 数 据 防泄漏方 面, 加州伯克利大学团队运用人工智能技术开发了一款手机 APP,能够自 动扫描手机相册内的裸露照片,改为加设密码存在该 APP中,并进一 步从相册与云空间删除,彻底防止私密照片外泄。 数 据 加密方面 ,谷 歌大脑成功开发出两个独立的人工智能加密算法,不但能够防范第三 方破解,而且还能够自我学习,破解其他人工智能加密算法。 二是数据 活动网 络 安全 保护 方面, 基于人工智能的网络安全防护 手段相比传统基于静态规则的方法具有持续进化能力。 新威胁的产生 不断为训练集加入新的数据,通过人工智能算法和模型调优,可以快 速查阅每个可疑文件数以百万计的特征, 智能识别最轻微的代码冲突; 对内外部网络流量中的元数据进行关联分析,实时检测异常流量;利 用庞大的关联处理能力并行监测海量数据点,实时生成风险预测,发 现并阻止设备或网络攻击。 恶意代码 分析 方 面, 中科院软件所提出基于文本分类技术的恶意 代码检测工具“飞鼠”系统,能够对大量恶意代码样本进行及时、高 效和准确检测,同时也具有一定的泛化能力,能够检测一定的未知样 本。 大连市公安局提出了基于人工智能技术的恶意代码变种检测技术, 将恶意代码映射为图像,提取图像特征,建立人工智能模型,利用恶意 代码家族图像样本集训练检测模型,能够快速识别恶意代码变种及其人工智能数据安全白皮书(2019 年) 中国信息通信研究院 20 家族,有效提高了检测效率和准确率。 边界安全 防护方 面 ,2018年 11月,华为发布业界首款智能防火 墙,内置基于人工智能的高级威胁检测引擎,支持加密流量免解密威 胁检测,通过联动云端为企

注意事项

本文(人工智能数据安全白皮书(2019).pdf)为本站会员(南极冰川)主动上传,环境100文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知环境100文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017 环境100文库版权所有
国家工信部备案号:京ICP备16041442号-6

收起
展开