欢迎来到环境100文库! | 帮助中心 分享价值,成长自我!

环境100文库

换一换
首页 环境100文库 > 资源分类 > PDF文档下载
 

《大数据白皮书(2018)》.pdf

  • 资源ID:4052       资源大小:1.31MB        全文页数:59页
  • 资源格式: PDF        下载权限:游客/注册会员/VIP会员    下载费用:10碳币 【人民币10元】
快捷注册下载 游客一键下载
会员登录下载
三方登录下载: 微信开放平台登录 QQ登录   微博登录  
下载资源需要10碳币 【人民币10元】
邮箱/手机:
温馨提示:
支付成功后,系统会自动生成账号(用户名和密码都是您填写的邮箱或者手机号),方便下次登录下载和查询订单;
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,既可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

《大数据白皮书(2018)》.pdf

p大 nbsp;数 nbsp;据 nbsp;白 nbsp;皮 nbsp;书 nbsp;( 2018年) nbsp;中国信息通信 研究院 nbsp;2018年 4月 版权声明 nbsp;本白皮书 版权属于 中国信息通信研究院 ,并受法律保护 。 转载、摘编或利用其它方式使用 本白皮书文字或者观点的,应 注明 “ 来源 中国信息通信研究院 ” 。违反上述声明者,本 院 将追究其相关法律责任。 nbsp; 前 nbsp; 言 nbsp;随着信息技 术 和人 类 生 产 生活交 汇 融合,全球数据呈 现 爆 发 增 长 、海量集聚的特点, 对经济发 展、社会治理、国家管理、人民生活都 产生了重大影响。 近年来,我国的大数据在政策、技 术 、 产业 、 应 用等方面均 获 得了 长 足 发 展。 nbsp;本白皮 书 是 继 大数据白皮 书 ( 2014 年)、大数据白皮 书( 2016 年)之后中国信息通信研究院第三次 发 布大数据白皮 书 。本白皮书在前两版的基础上,集中梳理介绍了我国大数据的最新发展态势和成果。本白皮 书 首先 对 我国大数据的发展 进 行了回 顾 与梳理,对大数据发展的总体情况进行了研判。白皮 书还对 大数据 的技术发展、行 业应 用 进 行了梳理,探 讨 了利用大数据提升政府治理能力的关键问题,并 对 数据法律法 规 体系和地方大数据 产业发 展的新 实 践、新 动 向进 行了追踪研究,力求重点介 绍 我国大数据 发 展的最新成果。 随着近年来数据 资产 管理的概念逐 渐 深入人心 ,本白皮 书 专门用一章 对这 一问题进 行了探 讨 。最后, 结 合我国大数据 发 展最新状况及 问题 ,提出了 进 一步促 进 大数据 发 展的相关策略建 议 。 nbsp; 目 nbsp; 录 nbsp;一、大数据发展概述 .................................................. 1 二、大数据政策环境 .................................................. 4 (一)我国大数据政策回顾与大数据战略的提 出 .......................... 4 (二)国家大数据战略的内涵 .......................................... 5 三、大数据技术创新 .................................................. 8 (一)数据分析技术 .................................................. 8 (二)事务处理技术 ................................................. 11 (三)数据流通技术 ................................................. 13 四、大数据与实体经济融合应用 ....................................... 15 (一)行业应用大数据的特点 ......................................... 15 (二)行业应用大数据的深层分析 ..................................... 16 (三)行业应用大数据的关键因素 ..................................... 19 五、政务大数据发展 ................................................. 19 (一)政务大数据总体要求 ........................................... 20 (二)政务信息系统整合 ............................................. 22 (三)政务信息共享交换 ............................................. 24 (四)政务信息对外开放 ............................................. 26 六、地方大数据产业发展 ............................................. 29 (一)大数据产业发展主要模式 ....................................... 29 (二)地方大数据产业发展策略分析 ................................... 30 (三)地方大数据产业发展成效与问题 ................................. 32 七、数据资产管理体系 ............................................... 33 (一)数据资产管理的定位和范畴 ..................................... 33 (二)数据资产管理面临的挑战 ....................................... 35 (三)数据资产管理的发展趋势 ....................................... 37 八、数据立法重点 ................................................... 41 (一)政府数据开放 ................................................. 41 (二)个人信息保护 ................................................. 43 (三)数据流通规则 ................................................. 46 九、建议与展望 ..................................................... 48 (一)制度与技术双管齐下,打破数据孤岛 ............................. 48 (二)内部与外部多重并举,推动数据治理 ............................. 49 (三)业务与数据加速融合,深化数据应用 ............................. 49 (四)监管与自律同时推进,保障数据安全 ............................. 50 nbsp;图表目录 nbsp;表 1 nbsp;数据流通技术工具对比 nbsp;............................ 14 表 2 nbsp;部分行业代表性企业大数据应用情况 nbsp;................ 17 表 3 nbsp;地方政府大数据产业发展定位 nbsp; ..................... 31 图 1 nbsp;我国大数据 市场产值图 nbsp;............................. 2 图 2 nbsp;事务型数据库架构演进图 nbsp;.......................... 11 图 3 nbsp;我国主要政府数据开放平台上线时间 nbsp;................ 28 图 4 nbsp;数据资产管理在大数据体系中的定位 nbsp;................ 34 图 5 nbsp;数据资产管理体系架构 nbsp;............................ 35 中国信息通信研究院 nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; 大数据白皮书( 2018) nbsp;1 一 、 大数据发展概述 nbsp;大数据是信息化发展的新阶段。随着信息技术和人类生产生活交汇融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会治理、国家管理、人民生活都产生了重大影响。在刚刚过去的 2017 年里,大数据在政策、技术、产业、应用等多个层面都取得了显著进展。 nbsp;在政策层面 ,大数据的重要性进一步得到巩固。党的十九大提出“ 推动互联网、大数据、人工智能和实体经济深度融合 ” ,习近平总书记在政治局集体学习中深刻分析了我国大数据发展的现状和趋势,对我国 实施国家大数据战略提出了 更高 的要求 。 nbsp;在技术层面 ,以分析类技术、事务处理技术和流通类技术为代表的大数据技术得到了快速的发展。 以开源为主导、多种技术和架构并存的大数据技术架构体系已经初步形成。大数据技术的计算性能进一步提升,处理时延不断降低,硬件能力得到充分挖掘,与各种数据库的融合能力继续增强。 nbsp;在产业层面 ,我国 大数据产业继续保持高速发展 。权威咨询机构Wikibon的预测表示,大数据在 2018年将深入渗透到各行各业( every business) 1。对于我国大数据产业的规模,目前各个研究机构均采取间接方法估算。中国信息通信研究院结合对大数据相关企业的调研测算, 2017 年我国大数据 产业 2规模为 4700 亿元人民币,同比增长1 来源https// 2 指以数据生产、采集、存储、加工、分析、服务为主的相关经济活动 ,包括数据资源建设、大数据软硬件产品的开发、销售和租赁活动,以及相关信息技术服务。 nbsp;大数据白皮书( 2018) nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; 中国信息通信研究院 nbsp;2 30。在这其中, 大数据软硬件产品的产值 约为 234 亿元人民币,同比增长 39。而中国信息通信研究院中国数字经济发展 与 就业白皮书 ( 2018 年) 中的数据显示, 2017 年我国数字经济总量达到 27.2万亿元,同比名义增长超过 20.3,占 GDP 比重达到 32.9。在这其中,以大数据为代表的新一代信息技术对于数字经济的贡献功不可没。 nbsp;图 1 我国大数据 市场产值图(单位亿元) nbsp;在应用层面,大数据在各行业的融合应用继续深化。大数据企业正在尝到与实体经济融合发展带来的“甜头”。利用大数据可以对实体经济行业进行市场需求分析、生产流程优化、供应链与物流管理、能源管理、提供智能客户服务等,这不但大大拓展了大数据企业的目标市场,更成为众多大数据企业技术进步的重要推动力。随着融合深度的增强和市场潜力不断被挖掘,融合发展给大数据企业带来的益处和价值正在日益显现。根据中国信息通信研究院 2017 年大数据产业地图的统计,为金融、政务、电商三个行业提供大数据产品 和解决方案的企业最多,分别占比 63、 57、 47。但实践中仍然面临着缺乏2800 nbsp;3600 nbsp;4700 nbsp;6200 nbsp;8000 nbsp;10100 nbsp;0200040006000800010000120002015 2016 2017 2018E 2019E 2020E中国信息通信研究院 nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; 大数据白皮书( 2018) nbsp;3 高质量数据、缺乏平台级工具、缺乏成熟商业模式等一系列问题,阻碍了实体经济行业充分利用大数据的价值。 nbsp;在利用大数据提升政府治理能力方面 ,我国在 2017 年出台了政务信息系统整合共享实施方案、政务信息资源目录编制指南(试行)等多项政策文件推进政府数据汇聚、共享、开放,取得了诸多进展。各地纷纷将大数据作为提升政府治理能力的重要手段,通过高效采集、有效整合、深化应用政府数据和社会数据,提升政府决策和风险防范水平,提高社会治理的精准性和 有效性。 nbsp;在地方大数据发展实践方面,截至 2018 年 2 月底,我国各地方政府对外公布了超过 110 份大数据相关政策文件,覆盖全国 31 个省级行政区划。总体来看,我国大数据产业目前仍处于蓬勃发展阶段,各地更加注重结合当地发展特色和优势进行大数据产业发展,区域协调的发展局面正在形成。 nbsp;在大数据的发展过程中,无论是政府还是企业,近年来都愈发关注数据治理和数据资产管理的重要性。 2018 年 3 月,银监会出台银行业金融机构数据治理指引,要求银行金融机构建立自上而下、协调一致的数据治理体系。企业的 数据资产管理也正在从理论走向实践,为大数据应用打下坚实的基础。为应对大数据发展带来的各种问题和需求,各国政府在立法方面也动作频频,在政府数据开放、个人信息保护和数据跨境流动方面都有了一些进展。无论是政策还是立法,都旨在实现数据价值的安全释放,提升数据管理的科学化水平。 nbsp;我国 要实现从“数据大国”向“数据强国”转变,还面临诸多挑大数据白皮书( 2018) nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; 中国信息通信研究院 nbsp;4 战。一是技术创新与支撑能力依然不够,我国无论是新型计算平台、分布式计算架构,还是大数据处理、分析和呈现方面与国外均存在较大差距,总体上难以满足各行各业大数据应用需求。二是信息安全和数据管 理体系仍未建立,数据所有权、隐私权等相关法律法规和信息安全、开放共享的规范和标准缺乏或可操作性不强,技术安全防范和管理能力不够。三是人才队伍建设亟需加强,大数据人才远不能满足发展需要,尤其是缺乏既熟悉行业业务需求,又掌握大数据技术与管理的综合型人才。未来,需要我们继续坚持国家大数据战略,审时度势精心布局,努力开拓大数据发展新局面,更好服务我国经济社会发展和人民生活改善。 nbsp;二 、 大数据政策环境 nbsp;在刚刚过去的 2017 年里 , 大数据从政策层面备受关注 。 在党的十九大报告 “贯彻新发展理念,建设现代化经济体系 ”一章中,专门 提到 “推动互联网、大数据、人工智能和实体经济深度融合 ”,高屋建瓴地指出了我国大数据发展重点方向。 2017 年 12 月 8 日,十九届中共中央政治局就实施国家大数据战略进行了集体学习,习近平总书记深刻分析了我国大数据发展的现状和趋势,对我国实施国家大数据战略提出了五个方面的要求。本章将对国家大数据政策进行梳理,并对国家大数据战略的内涵进行分析。 nbsp;(一) 我国大数据政策 回顾 与大数据战略的提出 nbsp;2014 年,大数据首次写入政府工作报告,而这一年也成为实际中国信息通信研究院 nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; 大数据白皮书( 2018) nbsp;5 意义上的 “中国大数据政策元年 ”。从这一年起, “大数据 ”逐渐成为各级政府关 注的热点,政府数据开放共享、数据流通与交易、利用大数据保障和改善民生等概念逐渐深入人心。 nbsp;2015 年 8 月 31 日,国务院正式印发了促进大数据发展的行动纲要(以下简称 “行动纲要 ”),成为我国发展大数据产业的战略性指导文件。行动纲要作为我国推进大数据发展的战略性、指导性文件,充分体现了国家层面对大数据发展的顶层设计和统筹布局,为我国大数据应用、产业和技术的发展提供了行动指南。 nbsp;2016 年,中华人民共和国国民经济和社会发展第十三个五年规划纲要(以下简称 “十三五规划纲要 ”)正式公布。 “十三五规划纲要 ”的第二十七章题目为 “实施国家大数据战略 ”。这也是 “国家大数据战略 ”首次被公开提出。十三五规划纲要对 “国家大数据战略 ”的阐释,成为各级政府在制订大数据发展规划和配套措施时的重要指导,对我国大数据的发展具有深远意义。 nbsp;2016 年底,工业和信息化部正式发布大数据产业发展规划( 2016-2020 年)。大数据产业发展规划以大数据产业发展中的关键问题为出发点和落脚点,明确了 “十三五 ”时期大数据产业发展的指导思想、发展目标、重点任务、重点工程及保障措施等内容,成为大数据产业发展的行动纲领。农业 林业 、 环境保护、国土资源、水利、交通运输、医疗健康、能源等主管部门纷纷出台了各自行业的大数据相关发展规划 , 大数据的政策布局逐渐得以完善。 nbsp;(二) 国家大数据战略的内涵 nbsp;大数据白皮书( 2018) nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; 中国信息通信研究院 nbsp;6 全面准确的理解国家大数据战略的内涵与意义,才能形成广泛的社会共识、充分的调动社会资源、完成构建国家大数据体系的各项任务。全面深入了解大数据及其相关技术的发展脉络和历史轨迹,可以引导我们准确深刻的把握大数据与国家总体目标相关性和内生性。2017 年 12 月 8 日,中共中央政治局就实施国家大数据战略进行第二次集体学习,习近平总书记在主持学习时,深刻分析了 我国大数据发展的现状和趋势,对我国实施国家大数据战略提出了五个方面的要求,一是推动大数据技术产业创新发展;二是构建以数据为关键要素的数字经济;三是运用大数据提升国家治理现代化水平;四是运用大数据促进保障和改善民生;五是切实保障国家数据安全与完善数据产权保护制度。 我们 认为,上述五大要求构成了国家大数据战略的 “五大内涵 ”。 nbsp;一是推动大数据技术产业创新发展。总书记指出,我们要瞄准世界科技前沿,集中优势资源突破大数据核心技术,加快构建自主可控的大数据产业链、价值链和生态系统。近年来,我国在大数据技术产业方面取得了不 少突破。 2014-2016 年,百度、阿里和腾讯先后拿下国际上知名的 Sort Benchmark 大赛冠军。这个竞赛全面比拼分布式系统软件架构能力,包括如海量数据分布式存储、计算任务切片调度等方面的能力。而这一赛事 2014 年之前的冠军均被微软、 Yahoo、亚马逊等包揽。这从一个侧面反映了我国产业界在大数据处理技术水平的快速提升 , 但是在互联网与大数据技术的创新与发展方面,同世界先进水平相比还有很大距离。 nbsp;中国信息通信研究院 nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; 大数据白皮书( 2018) nbsp;7 二是构建以数据为关键要素的数字经济。总书记提出,要坚持以供给侧结构性改革为主线,加快发展数字经济,推动实体经济 和数字经济融合发展,推动互联网、大数据、人工智能同实体经济深度融合,继续做好信息化和工业化深度融合这篇大文章,推动制造业加速向数字化、网络化、智能化发展。 2016 年,我国数字经济总量达 22.6 万亿元,占 GDP 比重达 30.3。数字经济已经成为带动中国经济增长的核心动力。工业互联网、分享经济、网络零售、移动支付等领域的快速发展,既为大数据的发展提供了重要应用场景,也对大数据产业的技术水平提升起到了促进作用。 nbsp;三是要运用大数据提升国家治理现代化水平。总书记强调,要建立健全大数据辅助科学决策和社会治理的机制,推进 政府管理和社会治理模式创新,实现政府决策科学化、社会治理精准化、公共服务高效化。要实现这一目标,不但要重点推进政府数据本身的开放共享,还应当将各级政府的平台与社会多方数据平台进行互联与共享,并通过大数据管理工具和方法,全面提升国家治理现代化水平。 nbsp;四是要用大数据促进保障和改善民生。总书记指出,大数据在保障和改善民生方面大有作为。要坚持问题导向,抓住民生领域的突出矛盾和问题,强化民生服务,弥补民生短板。民生大数据应用一向是大数据的重点行业应用,医疗、教育、社保、交通等行业的大数据应用在 2017 年也不断取得突破。大数据在流行病预测、个性化医疗、智能交通、治安管理等更广泛的社会场景中,将为增进民生福祉创造更大的技术红利。 nbsp;大数据白皮书( 2018) nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; 中国信息通信研究院 nbsp;8 五是要切实保障国家数据安全。总书记强调,要加强关键信息基础设施安全保护,强化国家关键数据资源保护能力,增强数据安全预警和溯源能力。要加强政策、监管、法律的统筹协调,加快法规制度建设。目前,关键数据基础设施的公权力属性、数据的生成、数据的权属、数据的开放、数据的流通、数据的交易、数据的保护、数据的治理以及法律责任等问题,都亟需得到法律的确认。 nbsp;以上五个角度共同构成了国家大数据战略的主 要内涵。大数据是信息化发展的新阶段,推动了信息化发展模式的变革创新,开启了数字中国建设的新时代。 nbsp;三 、 大数据技术创新 nbsp;如今,大数据技术体系纷繁复杂,但其中有诸多技术格外受到关注。随着社交网络的流行导致大量非结构化数据出现,传统处理方法难以应对,数据处理系统和分析技术开始不断发展。从 2005年 Hadoop的诞生开始,形成了数据分析技术体系这一热点。伴随着数据量的急剧增长和核心系统对吞吐量以及时效性的要求提升,传统数据库需要向分布式转型,形成了事务处理技术体系这一热点。然而,时代的发展使得单个企业、甚至单个行业 的数据都难以满足要求,数据融合的价值更加显现,形成了数据流通技术体系这一热点。本章将对数据分析、事务处理、数据流通这三类典型的技术体系的最新进展进行介绍。 nbsp;(一) 数据分析技术 nbsp;从数据在信息系统中的生命周期看,数据分析技术生态主要有 5中国信息通信研究院 nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; 大数据白皮书( 2018) nbsp;9 个发展方向,包括数据采集与传输、数据存储与管理、计算处理、查询与分析、可视化展现。在数据采集与传输领域渐渐形成了 Sqoop、Flume、 Kafka 等一系列开源技术,兼顾离线和实时数据的采集和传输。在存储层, HDFS 已经成为了大数据磁盘存储的事实标准,针对关系型以外的数据模型,开源社区形成了 K-V( key-value)、列式、文档、图这四类 NoSQL 数据库体系, Redis、 HBase、 Cassandra、 MongoDB、Neo4j 等数据库是各个领域的领先者。计算处理引擎方面, Spark 已经取代 MapReduce 成为了大数据平台统一的计算平台,在实时计算领域 Flink 是 Spark Streaming 强力的竞争者。在数据查询和分析领 域形成了丰富的 SQL on Hadoop 的解决方案, Hive、 HAWQ、 Impala、 Presto、Spark SQL 等技术与传统的大规模并行处理( massively parallel processor, MPP)数据库竞争激烈, Hive 还是这个领域当之无愧的王者。在数据可视化领域,敏捷商业智能( business intelligence,BI)分析工具 Tableau、 QlikView 通过简单的拖拽来实现数据的复杂展示,是目前最受欢迎的可视化展现方式。 nbsp;相比传统的数据库和 MPP 数据库, Hadoop 最初的优势 来源于良好的扩展性和对大规模数据的支持,但失去了传统数据库对数据精细化的操作,包括压缩、索引、数据的分配裁剪以及对 SQL 的支持度。经过 10 多年的发展,数据分析的技术体系渐渐在完善自己的不足,也融合了很多传统数据库和 MPP 数据库的优点,从技术的演进来看,大数据技术正在发生以下变化 nbsp;1) nbsp;更快 nbsp;大数据白皮书( 2018) nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; 中国信息通信研究院 nbsp;10 Spark 已经替代 MapReduce 成为了大数据生态的计算框架,以内存计算带来计算性能的大幅提高,尤其是 Spark2.0 增加了更多了优化器,计算性能进一步增强。 nbsp;2) nbsp;流处理 的加强 nbsp;Spark 提供一套底层计算引擎来支持批量、 SQL 分析、机器学习、实时和图处理等多种能力,但其本质还是小批的架构,在流处理要求越来越高的现在, Spark Streaming 受到 Flink 激烈的竞争。 nbsp;3) nbsp;硬件 的变化和硬件能力的充分挖掘 nbsp;大数据技术体系本质是数据管理系统的一种,受到底层硬件和上层应用的影响。当前硬件的芯片的发展从 CPU 的单核到多核演变转化为向 GPU、 FPGA、 ASIC 等多种类型芯片共存演变。而存储中大量使用SSD 来代替 SATA 盘, NVRAM 有可能替换 DRAM 成为主存。大数据技术势必需要拥抱这些变化,充分兼容和利用这些硬件的特性。 nbsp;4) nbsp;SQL 的支持 nbsp;从 Hive 诞生起, Hadoop 生态就在积极向 SQL 靠拢,主要从兼容标准 SQL 语法和性能等角度来不断优化,层出不穷的 SQL on Hadoop技术参考了很多传统数据库的技术。而 Greenplum 等 MPP 数据库技术本身从数据库继承而来,在支持 SQL 和数据精细化操作方面有很大的优势。 nbsp;5) nbsp;深度 学习的支持 nbsp;深度学习框架出现后,和大数据的计算平台形成了新的竞争局面,以 Spark 为首的计算平台开始积极探索如何支持深度学习能力,中国信息通信研究院 nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; 大数据白皮书( 2018) nbsp;11 TensorFlow on Spark 等解决方案的出现实现了 TensorFlow 与 Spark的无缝连 接,更好地解决了两者数据传递的问题。 nbsp;(二)事务处理 技术 nbsp;随着移动互联网的快速发展,智能终端数量呈现爆炸式增长, 银行和支付机构 传统的柜台式交易模式逐渐被终端直接交易模式替代。以金融场景为例,移动支付以及普惠金融的快速发展,为银行业、支付机构和金融监管机构带来了海量 高频 的 线上 小额资金支付行为, 生产业务系统面临 大规模并发 事务处理要求的挑战 。 nbsp;传统 事务 技术模式以集中式数据库 的 单点架构为主,通过提高 单机的 性能上限适应业务的 扩展 。而随着摩尔定律的失效 (底层硬件的变化),单机性能扩展的模式走到了尽头,而 数据交易规模的急速增长 (上层应用的变化)要求数据库系统具备大规模并发事务处理的能力。大数据分析系统经过 10 多年的实践,积累了丰富的分布式架构的经验, Paxos、 Raft 等一致性协议的诞生为事务系统的分布式铺平了道路。 新一代 分布式数据库 技术 在这些因素的推动下应运而生。 nbsp;图 2 事务型数据库架构演进图 nbsp;大数据白皮书( 2018) nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; 中国信息通信研究院 nbsp;12 如图 2 所示,经过多年发展, 当前分布式 事务 架构正处在快速演进的阶段 , 综合学术界以及产业界工作成果,目前主要分为三类 nbsp;1 基于原有单机事务处理关系数据库的分布式架构改造利用原有单机事务处理数据库的成熟度优势,通过在独立应用层面建立起数据分片和数据路由的规则,建立起一套复合型的分布式事务处理数据库的架构。 nbsp;2 基于新的分布式事务数据库的工程设计思路的突破。通过全新设计关系数据库的核心存储和计算层,将分布式计算和分布式存储的设计思路和架构直接植入数据库的引擎设计中,提供对业务透明和非侵入式的数据管理和操作 /处理能力。 nbsp;3 基于新的分布式关系数据模型理论的突破。通过设计全新的分布式关系数据管理模型,从数据组织和管理的最核心理论层面,构造出 完全不同于传统单机事务数据库的架构,从数据库的数据模型的根源上解决分布式关系数据库的架构。 nbsp;分布式事务数据库进入到各行各业面临诸多挑战,其一是多种技术路线,目前没有统一的定义和认识;其二是除了互联网公司有大规模使用外,其他行业的实践刚刚开始,需求较为模糊,采购、使用、运维的过程缺少可供参考的经验,需要较长时间的摸索;其三缺少可行的评价指标、测试方法和测试工具来全方位比较当前的产品,规范市场,促进产品的进步。故应用上述技术进行交易类业务进行服务时,应充分考虑“可持续发展”、“透明开放”、“代价可控”三原则,遵 循“知识传递先行”、“测试评估体系建立”、“实施阶段规划”中国信息通信研究院 nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; 大数据白皮书( 2018) nbsp;13 三步骤,并认识到“应用过度适配和改造”、“可用性管理策略不更新”、“外围设施不匹配”三个误区。 nbsp;大数据 事务处理 类技术体系的快速演进正在消除日益增长的数字社会需求同旧式的信息架构缺陷,未来人类行为方式、经济格局以及商业模式将会随大数据 事务处理 类技术体系的成熟而发生重大变革。 nbsp;(三)数据流通 技术 nbsp;数据流通是释放数据价值的关键环节。然而,数据流通也伴随着权属、质量、合规性、安全性等诸多问题,这些问题成为了制约数据流通的瓶颈。为了解决这些问题,大数据从业者从 诸多方面进行了探索。目前来看,从技术角度的探索是卓有成效和富有潜力的。 nbsp;从概念上讲,基础的数据流通只存在数据供方和数据需方这两类角色,数据从供方通过一定手段传递给需方。然而,由于数据权属和安全的需要,不能简单地将数据直接进行传送。数据流通的过程中需要完成数据确权、控制信息计算、个性化安全加密等一系列信息生产和再造,形成闭合环路。 nbsp;安全多方计算和区块链是近年来常用的两种技术框架。由于创造价值的往往是对数据进行的加工分析等运算的结果而非数据本身,因此对数据需方来说,本身不触碰数据、但可以完成对数据的加工分析操作 ,也是可以接受的。安全多方计算这个技术框架就实现了这一点。其围绕数据安全计算,通过独特的分布式计算技术和密码技术,有区分的、定制化的提供安全性服务,使得各参与方在无需对外提供原始大数据白皮书( 2018) nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; 中国信息通信研究院 nbsp;14 数据的前提下实现了对与其数据有关的函数的计算,解决了一组互不信任的参与方之间保护隐私的协同计算问题。区块链技术中多个计算节点共同参与和记录,相互验证信息有效性,既进行了数据信息防伪,又提供了数据流通的可追溯路径。业务平台中授权和业务流程的解耦对数据流通中的溯源、数据交易、智能合约的引入有了实质性的进展。 nbsp;除了以上两种技术框架外 , 近年来还涌现出多种数据流通的技术工具 , 这里将其列表总结如下 。 nbsp;表 1 nbsp;数据流通技术工具对比 3 3 来源数据流通关键技术白皮书( 1.0 版),大数据发展促进委员会, 2018 年。 nbsp;技术工具 nbsp;同态加密 nbsp;零知识证明 nbsp;群签名 nbsp;环签名 nbsp;差分隐私 nbsp;原理概述 nbsp;对原始数据进行加密,使得加密数据和原始数据进行相同处理时,结果相同 nbsp;证明者向验证者证明一个声明的有效性,而不会泄露除了有效性之外任何信息 nbsp;允许群体中的任意成员以 匿名 方式代表整个群体对消息进行签名,并可公开验证 nbsp;一种简化的群签名,环签名中只有环成员没有管理者,不需要环成员间的合作 nbsp;通过添加噪音来达到隐私保护效果 nbsp;技术特点 nbsp;可在不解密的情况下对密文进行计算和分析 nbsp;证明者无需任何事件相关数据 ,就能 向验证者证明事件的真实 可靠 nbsp;能为签 名 者提供较好的匿名性,同时在必要时又通过可信管理方追溯签署者身份 nbsp;不需要分配指定的密钥,无法撤销签名者的匿名性 nbsp; 具有严谨的统计学模型,能够提供可量化的隐私保证 nbsp;适用领域 nbsp;云计算、电子商务、物联网等 nbsp;电子商务、金融、银行、电子货币等 nbsp;公共资源管理、电子商务、金融等 nbsp;云存储、 nbsp;电子货币等 nbsp;电子商务、 nbsp;物联网等 nbsp;成熟度 nbsp;全同态 加密理论上可行,商用化程度还需提高 nbsp;通用场景的零知识 证明 理论较为成熟 ,性能优化后逐渐商用 nbsp;广泛应用在网络安全中,需要提高计算效率 nbsp;建立更好的安全性模型,与群签名、 CPK结合,优势互补 nbsp;还需研究复杂数据的差分隐私保护和有效控制连续数据的累计误差 nbsp;中国信息通信研究院 nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; 大数据白皮书( 2018) nbsp;15 四 、 大数据与实体经济融合应用 nbsp;党的十九大报告中指出,要加快大数据与实体经济的深度融合。经过几年的发展,各行各业对于大数据应用的重要性基本得到统一,但受限于各种各样的因素,各行业的大数据应用水平还有较大差异。本节将以部分行业为例,分析各行业大数据发展现状及原因,并给出行业大数据应用发展的路径。 nbsp;(一)行业应用大数据的特点 nbsp;近年来,在全球经济数字化浪潮的带动下,我国大数据与实体经济的融合应用不断拓展。大数据企业正在尝到与实体经济融合发展带来的“甜头”。利用大数据可以对实体经济行业进行市场需求分析、生产流程优化、供应链与物流管理、能源管理、提供智能客户服务等,这不但大大拓展了大数据企业的目标市场,更成为众多大数据企业技术进步的重要推动力。随着融合深度的增强和市场潜力不断被挖掘,融合发展给大数据企业带来的益处和价值正在日益显现。 nbsp;然而总体来看,目前我国在大数据与实体经济融合领域整体上还处于发展初期。相对于发达国家,在融合行业数量、 融合应用深度、融合业务规模、融合发展均衡性等方面还有一定差距。这一阶段主要特点如下 nbsp;一是 业务类型不均衡 大数据融合应用主要集中在外围业务上,而在核心业务方面的渗透程度还有待提高。据调查显示 4,在应用大数据的行业企业中,营销分析、客户分析和内部运营管理是应用最广4数据来自中国大数据发展调查报告,大数据发展促进委员会 2018 年 4 月发布 nbsp;大数据白皮书( 2018) nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; 中国信息通信研究院 nbsp;16 泛的三个领域。 61.7的企业将大数据应用于营销分析, 50.2的企业将大数据应用于客户分析,将近 50的企业将大数据应用于内部运营管理。相比之下大数据分析在产品设计、产品生产、企业供应链管理等核心业务的应用比例还有待提升,大规模应用尚未展开。 nbsp;二 是 地域分布不均衡 大数据融合应用在地区之间发展不均衡,各地大数据应用发展程度差距较大。受经济发达程度、人才聚集程度和技术发展水平影响 ,大数据应用的产学研力量仍主要分布在北京、上海、广东、浙江等东部发达地区。相关的数据显示 5,中西部地区的大数据应用虽然市场需求较大,但发展水平仍较低。 nbsp;三 是 行业分布不均衡 大数据融合应用主要集中在部分行业中 ,如前所述 , 大数据与金融 、 政务 、 电信等行业的融合效果较好 , 而在其它众多行业的融合效果则有待深化 。在下文中将着重对此现象的原因进行深入分析。 nbsp;(二) 行业应用大数据的深层分析 nbsp;企业 和行业大数据应用体系其实就是在生产业务系统之外构建统一的企业级数据仓库。回顾各个领先行业企业级数据仓库建设路径,从技术架构上大都经历了从传统数据库或者数据仓库的架构到 MPP数据库架构再到 Hadoop 的架构体系。除技术架构外,企业级数据仓库的建设还包括数据模型、数据管理体系以及数据应用体系的建设,整个企业级数据仓库最终实施效果依赖于企业内部专业而有力度的组织机构来推动。 以下以金融 、 电信 、 能源 、 交通 、 互联网等几个行5数据来自中国大数据产业发展评估报告( 2017 年) nbsp;中国信息通信研究院 nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; nbsp; 大数据白皮书( 2018) nbsp;17 业为例 ,选取代表企业对其行业大数据应用情况进行简要梳理。 nbsp;表 2 部分行业代表性企业大数据应用情况 nbsp;大型国有银行 nbsp;(以中国工商银行为/p

注意事项

本文(《大数据白皮书(2018)》.pdf)为本站会员(石头哥)主动上传,环境100文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知环境100文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017 环境100文库版权所有
国家工信部备案号:京ICP备16041442号-6

收起
展开