工业大数据创新竞赛白皮书（2017）.pdf

资源ID：4462 资源大小：6.69MB 全文页数：105页
资源格式： PDF 下载权限：游客/注册会员/VIP会员 下载费用：10碳币【人民币10元】

快捷注册下载

会员登录下载

三方登录下载：

下载资源需要10碳币【人民币10元】

邮箱/手机：
温馨提示：	支付成功后，系统会自动生成账号（用户名和密码都是您填写的邮箱或者手机号），方便下次登录下载和查询订单；
支付方式：
验证码：	换一换

加入VIP,免费下载

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，既可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰

网站客服

侵权投诉

工业大数据创新竞赛白皮书（2017）.pdf

I 工业大数据创新竞赛白皮书（ 2017）风机结冰故障分析指南指导单位工信部信息化和软件服务业司工业互联网产业联盟编写单位工业大数据创新竞赛组委会 2018年 1月编写说明 2017 年的工业大数据竞赛作为我国首次工业大数据竞赛，在吸引人才关注、促进工业智能化、建立工业大数据生态等方面起到重要作用。习近平总书记在党的十九大报告中强调“建设现代化经济体系，深化供给侧结构性改革，加快发展先进制造业，推动互联网、大数据、人工智能和实体经济深度融合。” 这些都为制造业转型升级指明了新方向，数据成为制造业与新一代信息技术融合的重要基础资源和创新引擎。在工信部信息化和软件服务业司、工业互联网产业联盟指导下，本次竞赛组委会在北京天泽智云科技有限公司的倾力支持下，组织参赛者编写了工业大数据竞赛白皮书（风机结冰故障分析指南），希望将本次竞赛的经验与技术成果固化并加以推广，促进交流，与业界共同推动工业大数据发展。白皮书收录了 2017 年工业大数据竞赛 -风机叶片结冰故障预测的获奖算法，组成解法集，在工业大数据分析的方法论上具有重要的指导意义，在风力发电机行业尤其具有示范作用。白皮书主要分为四个部分，第一部分是工业大数据创新竞赛概况，主要介绍此次竞赛背景和开展情况。第二部分提出了工业大数据分析方法论，并以本次数据竞赛的题目作为案例，解释预测性建模的各个分析流程。第三部分主要收录竞赛优秀算法，包括文献调研、方法介绍、方法应用与验证、与结果讨论。第四部分进行方法论总结。白皮书的编写过程中得到竞赛组委会和参赛选手的大力支持。相关参赛人员根据自己对竞赛题目的解法，给出了详细、清晰的方法流程与结果讨论，为白皮书的提供了丰富的素材与扎实的内容。同时，不同解法也为工业大数据分析从业人员打开思路、拓宽视野提供了极具价值的参考。工业大数据的发展还在初级阶段，随着工业大数据竞赛日后的逐年举办与工业智能的逐步发展，我们将根据各界的反馈意见，在持续调研与总结的基础上，定期进行修订与新版发布。指导单位工业和信息化部信息化和软件服务业司工业互联网产业联盟编写单位工业大数据创新竞赛组委会指导专家孙家广中国工程院院士谢少锋工业和信息化部信息化和软件服务业司司长安筱鹏工业和信息化部信息化和软件服务业司副司长李杰美国辛辛那提大学智能维护系统（ IMS）中心主任王建民清华大学软件学院院长林诗万 IIC技术工作组与架构任务组联执主席余晓晖中国信息通信研究院总工编写组成员（排名不分先后）工业和信息化部信息化和软件服务业司王建伟、冯伟中国信息通信研究院冯旭、朱敏、刘默、李铮、宋辰超、李南、魏凯北京天泽智云科技有限公司金超、晋文静、刘宗长、李飞北京工业大数据创新中心王晨、田春华、崔鹏飞金风科技张光磊、周杰、李富荣万腾科技张嗣昌、侯振寰、侯宗波济中节能纪浩然、张薇、王成金浙江运达风电股份有限公司周书锋、朱博文、冯文婷北京邮电大学林文芳西安交通大学李宁波、闫涛、郭亮 I 序言随着新工业革命时代的序幕徐徐拉开，物联网、工业互联网、智能 ICT 技术、人工智能等技术成为舞台上最受瞩目的新星。在这些新兴技术的推动下，工业领域中的大数据环境正在逐渐形成，数据从制造过程中的副产品转变成为备受企业关注的战略资源，成为工业企业传承制造知识和提供增值服务的依托。然而，工业大数据在其可获取性和可分析性方面仍然存在许多的挑战，一方面企业拥有大量数据但缺乏专业的数据分析人才，而另一方面拥有分析能力的人才缺少数据和应用场景。工业大数据由于其应用场景的专业性与多样性，使之兼具工业体系的系统性与互联网的开放性，也使企业很难独立建立完整的工业大数据应用能力。在这样的挑战下，需要建立一个开放的生态，将数据和场景的提供者、知识和能力的提供者、产业链相关上下游聚合在一起，让数据的生态、知识的生态和服务的生态得以相互促进。建立可持续的大数据人才培养模式和人才培养体系是产、学界面临的共同挑战。可持续的人才培养模式不仅局限于大学中，还包括企业内的人才培养。大学的人才的培养需要鼓励创新性和独特性，而企业则应该注重员工专业技能和应用研发能力的培养。工业大数据竞赛是非常好的产、学界共同携手培养人才的方式。产业界贡献场景和数据，可以帮助学术界的研究更贴近真实需求。而学术界也为企业提供最新的理论和最前沿的技术成果，拓宽了企业解决问题的视野。美国在这方面的投入已经持续了多年，从 2008 年开始美国的 PHM 学会（ PHM Society）就开始举办工业数据分析竞赛。数据的贡献者主要来自于企业或产业研究机构，涉及的行业非常广泛，但都遵循着同一个原则，就是场景都来自于企业的真实问题，数据都来自于真实的工业现场。这个竞赛中所使用的数据可供全世界的研究者下载，比赛的胜出者也会受邀在其期刊中发表论文共享好的分析方法。 IMS 中心参加了从 2008 年至今的 10 次数据竞赛，获得了其中的 5 次冠军，所贡献的方法在工业界中得到广泛应用。在本届工业大数据竞赛中，我们欣喜地看到参赛队伍包括了产业界和学术界，参赛的企业包括风电装备制造、风场运营商、服务提供商、以及其他工业领域的企业，总数超过了 1000多只参赛队伍。本次数据竞赛在引领和催化工业大数据应用生态形成方面的作用是有目共睹的。今年 IMS 中心有幸作为顾问单位参与中国第一届工业大数据竞赛的组织工作，竞赛获得的关注程度以及选手们在竞赛中的表现都令人感到惊喜。工业大数据创新竞赛（ 2017）白皮书作为本次竞赛的重要成果之一，对工业大数据分析方法论进行了系统性地介绍，并对竞赛优胜团队的解题方法进行了详细地整理和解读，相信能够为从事工业大数据应用研究的企业和学者们提供有价值的参考。衷心祝愿工业大数据创新竞赛越办越好，成为产学界共同推崇的传统和品牌，为中国工业大数据产业生态源源不断地输送优秀人才。李杰， 2018年 1月目录一、工业大数据创新竞赛概况 . 1 （一）数据经济的崛起与工业的变革 . 1 （二）工业大数据驱动制造业转型升级 . 2 （三）工业大数据创新竞赛开展情况 . 4 二、工业智能分析方法论 . 6 （一）工业智能分析方法流程 . 6 （二）案例 -风机结冰故障 . 12 三、首届工业大数据创新竞赛解法集 27 （一）基于 CNN-LSTM深度学习网络的风机叶片结冰预测 . 27 （二）基于物理原理 KNN分类的混合预测模型 . 41 （三）基于领域知识特征构建和未来结冰概率估计的风机叶片结冰预测 48 （四）基于数据驱动和非均衡数据学习的故障预测研究 62 （五）基于敏感特征的风机叶片结冰预测算法 75 四、方法论总结 94 1 一、工业大数据创新竞赛概况（一）数据经济的崛起与工业的变革当前，世界经济加速向以网络信息技术产业为重要内容的经济活动转变，数字经济正深刻地改变着人类的生产和生活方式，成为经济增长新动能。人类社会正在被网络化连接、数据化描绘、融合化发展，在这一进程中，数据成为重要的基础性战略资源。大数据的充分挖掘和利用，极大促进了全社会要素资源的网络化共享、集约化整合、协作化开发、高效化利用，对经济发展、社会生活和国家治理产生着越来越重要的作用，推动了诸多领域发生重大而深刻的变革，一个全新的大数据时代正在向我们大踏步地走来。大数据是一种资源，一种技术，一种产业，更是一个时代，它通过构筑信息互通、资源共享、能力协同、开放合作的发展新体系，为提升政府治理能力、优化民生公共服务、促进经济转型和创新发展做出了积极贡献。尤其是随着近年来，互联网产业对数据价值挖掘的成功，使得传统行业开始思考如何推动价值转型，驱动工业变革，这是新的技术条件下制造业生产全流程、全产业链、产品全生命周期的数据可获取、可分析、可执行的必然结果，也是制造业隐性知识显性化不断取得突破的内在要求。在数据经济浪潮的推动下，是否能对数据进行深度的价值挖掘，将是各个行业竞争的新重点。值得明确提出的是，数据本身并不能创造价值。如果只是对数据进行收集、存储、与管理，是无法为工业飞跃式地创造价值的。为了实现工业大数据驱动的价值转型，需要从工业中的问题出发，将业务问题转化为数据预测性建模问题，从而达到解决用户痛点、实现用户价值转型的目的。（二）工业大数据驱动制造业转型升级大数据作为一种新的资产、资源和生产要素，正驱动着制造业的智能化变革，可以从三方面来理解。首先，资源优化是目标，工业大数据的创新价值集中体现在制造资源配置效率的优化，以及制造业全要素生产率的提高。其次，信息流动是关键，工业大数据如何优化制造资源配置效率，关键是要把正确的信息在正确的时间传递给正确的人和机器，解决制造过程的复杂性和不确定性等问题。第三，大数据、人工智能、互联网等新一代信息技术是基础，为数据的全面感知、在线汇聚和智能分析构筑赋能工具和载体，这正是工业大数据的核心功能。关于大数据的分析方法，人们首先想到的可能是 Hadoop，Spark 等 IT 技术。然而，对于工业中的大数据问题，其重要价值在于形成并不断优化认识和改造世界的方法论，除了分析平台与数据处理基础设施，用户应该更加关心大数据分析所能带来的价值，再选择与分析目标相适应的技术。通过工业大数据创造价值，需要围绕业务目标，将基于机理模型的模拟择优法和数据模型驱动的大数据分析法进行融合。正如在首届（ 2017）工业大数据创新竞赛决赛答辩和颁奖仪式上，工业和信息化部信息化和软件服务业副司长安筱鹏所指出的机理模型与数据模型的融合，能够突破隐性数据显性化和隐性知识显性化两大关键，通过构建制造业快速迭代、持续优化、数据驱动的新方式，解决发生了什么、为什么发生、下一步发生什么、如何改进优化四个问题，优化制造资源的配置效率。通过工业大数据创造价值，需要整合不同学科、不同领域的经验、知识和技术。美国国家自然基金会产学合作智能维护系统中心主任李杰教授提到，工业大数据遇到的挑战主要可以分为工业场景的复杂性与不确定性两个方面。在复杂性方面，从数据接入、数据治理、模型建立、优化分析、到最后的决策支持与行动，价值转型的过程就是打通工业大数据信息与知识链路的过程，关键在于如何融合数据技术、分析技术、与运营管理技术。在不确定性方面，工业大数据分析的不确定性体现在应用对象、工况、数据、模型等等诸多因素上。通过工业大数据创造价值，也需要面对工业应用对象差异所带来的挑战。清华大学软件学院院长王建民强调了数据模型泛化的能力，在物联网数据采集规模化的今天，如何能够把训练好的模型快速准确的应用到另一个同类对象上，是工业大数据实施过程中的重点。同时，中国工程院院士孙家广也阐述了工业大数据价值创造处在起步的初级阶段，而本次创新竞赛是推进工业大数据普世化、规范化、国际化、市场化的绝佳机会，要坚持走出有中国特色的工业大数据技术与产业创新道路，助理中国工业由大变强、弯道超车。工业大数据并不单单是某一种技术，而是一种理念。企业若想要通过工业大数据实现价值转型，需要打破原有的技术采购思路，不断提升技术和组织能力，从自身问题和需求出发，用工业大数据的方法论切实解决问题和创造价值。而一个行业要想通过工业大数据实现产业升级，则需要更加开放的生态、与共赢的思维，对行业通用的痛点进行充分地讨论与系统性的梳理，为实现行业的平台化、标准化、规模化工业大数据环境奠定基础。（三）工业大数据创新竞赛开展情况为进一步探索工业大数据对工业改革的深远影响，由工业和信息化部指导，在工业和信息化部指导下，以“赋能与赋智，构建工业大数据应用生态”为主题，以“开放共享、协作共赢”为原则，中国信息通信研究院联合业界同仁举办首届工业大数据创新竞赛，这也是首次由政府主管部门组织的工业大数据领域权威的全国性创新竞赛。大赛在发掘专业技术人才的同时，助力于解决工业企业实际问题，以提升制造智能水平，推动中国工业转型升级，推进工业大数据的加速发展，积极促进赛事成果转化和产学研用紧密结合，服务工业经济提质增效升级，推荐优秀专业技术人才找到适合发展的平台。本次比赛围绕风电装备预测性维护这一应用场景，针对风机叶片结冰故障预测和风机齿形带故障两个真实工业大数据应用需求，由金风科技分别提供来自于某风场的 13 台风机半年运行数据，每台风机包括工况、环境等 28 个变量，设置两道赛题面向全社会征集解决方案，旨在通过竞赛方式解决大数据技术在工业应用落地过程中面临的“有数据没技术、有技术没应用场景”等问题。竞赛过程中，得到了北京工业大数据创新中心、树根互联技术有限公司、星河互联、美国国家仪器、美国国家科学基金会智能维护系统中心等企业和研究机构的大力支持。活动自 2017 年 7月启动，至 2017年 12月正式结束。竞赛注册用户数 1535 人，分别有 830 支和 630 支队伍参加两个竞赛题目，其中 60以上来自于高校学生，涉及数据挖掘、控制工程、工业机器人、测控技术、计算机等多个领域。竞赛分初赛、复赛和决赛三个阶段进行，经过 3 个月的角逐和复赛专家评审，最终 12 支队伍获奖，其中 3 支队伍是北邮、西安交大和浙大的学生团队，其余 9 支是企业团队，包括富士康等制造企业，以及信息通信、能源等领域的初创企业。附获奖队伍比赛一风机叶片结冰预测比赛二风机齿形带故障分类一等奖万腾科技（团队）一等奖中国石油中油瑞飞（ AC_Drilling团队）二等奖济中节能（团队）运达风电（世属三团队）二等奖浙江大学（ DCL团队）南京大学（ Diaryfly 团队）三等奖富士康科技（个人）西安交通大学（ XJTU_DL 团队）北京邮电大学（个人）三等奖难愚科技（团队）富士康科技（ Knight 团队）富士康科技（ DPBG_IT 团队）二、工业智能分析方法论（一）工业智能分析方法流程简单来说，工业智能指的是人工智能技术在工业中的应用。工业智能的萌芽得益于人工智能技术的进步，其技术驱动因素包括传感器成本的降低、计算能力的飞跃和机器学习算法准确度质的提升。在多个通用人工智能领域，人工智能算法的准确性都取得了巨大突破。而传统的工业生产活动中，直至今天依然非常依赖人力、经验、与设备本身，用户往往重视管控“可见问题”，而忽略了挖掘“不可见问题”。在工业对象数据的自动化获取与存储越来越容易越来越廉价的今天，工业作为智能化程度的“洼地”及其潜在的巨大商业价值，受到的关注与日俱增。工业智能并不是通用人工智能技术在工业场景中的简单复用。工业场景中问题的碎片化、个性化、与专业化的特点，决定了工业智能落地需要依靠计算机科学、人工智能、与领域知识的深度融合。与传统基于规则或单纯依赖机理建模的方式不同，数据驱动的工业智能技术的一大优势是通过基于统计意义上的预测性分析，对不确定性更加有效地管理，同时更好地结合专家知识并将其固化到软件中，形成可持续迭代的智能系统。工业系统的智能化转型主要主要体现在以下三方面 1 一是从基于经验的决策转变为基于实证的决策传统的工1Lee, J., Bagheri, B., Jin, C. 2016. Introduction to cyber manufacturing. Manufacturing Letters, 8, 11-15. 业系统高度依赖专家的经验。随着专家年龄的增大、员工离职率的逐渐攀升，这种经验越来越难以传承。企业为了可持续发展，专家的经验需要以某种方式固化下来成为模型、判断标准、流程等，支持企业中的各个方面在正确的时间做出正确的决策。二是从解决可见问题转变为避免不可见问题工业中的问题可以被分为可见与不可见两类。工业活动中的经典管理与分析策略，绝大多数都聚焦在解决可见问题，如设备定期维护保养，产品质量抽检，机器换人等。这些方法的应用并不能阻止出现设备的非预期停机、不良品的出现与根因分析的困难、以及自动化机器误操作等问题。这是由于生产中如设备关键组件衰退、工艺过程与质量关系等不可见的问题没有被量化。将隐性问题与隐性关系显性化，才能够从根本上帮助用户降低成本、提升效率。三是从基于控制的自动化转变为基于机器学习的智能化自动化系统曾被认为是工业智能的核心。然而，单纯的自动化仍无法完全满足工业智能化的需求。自动化系统能够解决的是能够被相对清晰、明确定义的问题，即可见问题；而智能化系统要暴露的往往是可见问题暴露之前的隐性问题。同时，在现代工业系统变得越来越复杂的情况下，人工智能算法能够与自动化模型相结合，超越传统控制的局限性，实现全局优化，达到增强系统强健性的目的。在工业系统中，设备的预测性智能维护和效能动态优化是工业大数据的核心应用场景之一，也是实现智能化工业系统最为关键的核心技术之一。对设备性能的预测分析和对故障时间的精准估计，将量化管理设备运行中的不确定性，并减少这些不确定性的影响，来为用户提供预先缓和措施和解决对策，以防止设备运行中的非预期停机损失和事故风险。同时，根据设备的健康状态、外部环境、产线组织形式和生产目标等多维信息，基于工业大数据的预测性模型可以对产线整体的效能进行优化决策支持，从而实现对生产系统成本和效益的深度管理和效益提升。数据驱动（ Data-driven）的分析手段并非是对设备的状态和效能进行建模和预测的唯一途径，其他的方式还包括物理建模、可靠性模型、和混合模型等。在对数据驱动方法的原理进行阐述之前，首先要对‘特征’这个重要概念进行解释。特征的含义是，从数据当中抽象提取出的与判断某一事物的状态或属性有较强关联的可被量化的指标。例如在人脸识别的过程中首先要提取出脸部主要器官的位置、形状、相对距离等特征，再对这些特征进行匹配，从而实现身份的识别。在设备健康状态预测方面，提取有效的健康特征对预测准确性至关重要。常用的特征包括时域信号的统计特征、波形信号的频域特征、能量谱特征、特定工况下的信号读数等。在对原始数据进行特征提取之后，智能算法通过对多维度数据的融合分析来建立健康预测模型。基于统计或机器学习的算法能够根据所定义的目标函数来优化预测性模型的结构与参数，从而“记忆”数据中的信息，并能据此对类似的数据做判断。模型所记录的信息可以是多维数据的模态，其与某一状态的相似度，或者是输入特征之间的相关性等。以对设备的状态评估为例，图 2-1 的横轴与纵轴分别代表两个不同的特征，在两个特征构成的特征空间中，设备的不同健康状态对应着特征的不同分布。在制造系统的运行过程中，随着设备衰退，其对应的特征分布会慢慢偏移。特征的分布与正常状态分布的重叠部分表征设备当前状态与健康状态的相似度，即其健康的可能性，或称之为“健康值”。若设备的故障状态特征分布已知，则该健康值将可以被正态化为 0-1 之间的量。随着时间的推移，这个分布会慢慢向某一个失效状态发展， j 对应的健康值时间序列代表的是设备衰退的轨迹。如果进一步对这个趋势的发展进行预测，就可以推断出在未来的什么时间会发生什么问题或故障。图 2-1利用大数据建模分析制造系统隐性问题的原理 [来源美国智能维护系统中心 ] 对工业大数据的建模，其目的是为用户创造价值。这决定0特征 1特征 2健康状态失效状态模型预测模型预测验证预测不确定性预测的健康值（ C V 值）预测的失效概率性能衰退的开始当前状态了工业大数据的建模过程需要以业务目标为驱动，同时要融合算法科学、领域知识、与软件工程。如图 2-2 所示，工业大数据的分析过程包括了业务场景分析、数据问题定义、数据场景化、模型建立、模型价值评估、以及最后的部署实施六大步骤。第一步，业务场景分析工业大数据分析不同于互联网，对通过数据挖掘来泛泛寻找相关性这种模式在成本上无法承受。工业大数据分析应该从业务入手，在了解行业背景、分析用户痛点之后，制定明确的数据服务目标，定义工业数据分析系统的功能与边界。第二步，数据问题定义在确定业务目标之后，需要对问题进行数学化的定义。在工业中，并非所有的问题都适用于数据驱动的建模方式。根据数据的数量、质量、与可采集变量的完整性，明确数据建模的策略与详细流程。第三步，数据场景化原始数据往往因为数据质量、工况完整性、标签缺失等问题无法用来直接建模。在建模之前，有必要检测数据质量，将数据与业务场景相对应，之后提取能够反映建模对象健康状态的特征，为后续模型输入做准备。第四步，模型建立这一步与通常意义上的机器学习过程类似。不同的是，在工业数据预测性分析中，建模是更加强调模型的可靠性、泛化能力、以及可解释性。第五步，模型价值评估模型本身性能与准确性不是工业数据分析的唯一衡量标准。如何能够让模型产生准确的可执行信息，快速支持用户决策，改善设备健康状态，优化运维效率，是建模中需要着重强调的关键评估角度。第六步，模型部署与实施模型本身不产生价值，嵌入软件产品中支持业务改善的模型才有价值。与离线的验证不同，工业系统的模型上线后，仍需要被维护、管理、以及不断迭代，以适应变换的工业场景与可能出现的问题，持续为用户提供设备洞察，提高生产力。图 2-2工业大数据的建模过程下面，我们将针对本次工业大数据竞赛的题目，将其作为一个案例对工业大数据的建模过程展开讨论。（二）案例 -风机结冰故障 1.结冰预测的整体分析思路大量运行经验表明，风机叶片结冰会改变叶片叶形，破坏叶片气动特性，从而导致风机效率下降和运行不稳定，进而对电网的稳定运行产生影响。因此，实现早期叶片结冰预测可以有效提高风机运行效率和电网运行安全。风机结冰预测分析由物理建模、特征提取、动态特性分析、建立预测模型和诊断分析几个部分组成。整体分析流程如图 2-3 所示。叶片结冰可以看做一个缓慢的能量累积和转化过程，结冰的程度、影响度与环境条件（温度、湿度、风速等）、以及风机参数（叶型、高度、额定功率等）有关。为了建立准确的结冰预测模型，实现结冰早期和全过程的预测诊断，首先要对结冰的物理过程和风机参数对结冰影响的特性进行分析，充分了解结冰过程中的能量累积、转换和守恒规律，在此基础上提取能够表征结冰程度的关键参数。然后，定量分析叶片结冰状态对风机效率的影响关系，在此基础上提取表征风机受结冰影响的性能参数。因此，物理模型的分析从以下两个角度入手  风机叶片结冰动力学模型  叶片结冰状态对风机性能的影响模型这两种方法能够从两个视角透彻分析结冰过程和风机性能之间的作用机理。一方面，建立叶片结冰动力学模型能够从本质上展示水蒸汽在金属表面的能量转换和累积过程，使我们能够利用给定的条件和数据定量刻画结冰的严重程度；另一发面，建立叶片结冰状态对风机性能影响的关系模型，使我们能够利用叶片结冰程度指标定量表征风机整体性能，从而实现完全封闭的从观测数据到风机性能的结冰关系模型。利用这个关系，我们可以从中进一步提取相应的特征作为训练模型的条件属性，作为结冰预测模型的输入参数。在实际运行中，严重的结冰一般能够被轻易检测到，并通过风机除冰系统自动除冰。然而，除冰系统却难以检测早期结冰状态。虽然叶片在结冰早期产生了一定的变形，但对机组的性能影响不明显，因此难以察觉。早期的叶片结冰在不处理的情况下一般都会演化成严重结冰，所以，分析结冰全过程的动态特性对结冰预测来说十分重要，它能够帮助预测模型实现结冰早期的监测和诊断。预处理结冰动力学模型结冰 - 风机性能关系模型特征提取特征子集结冰演化过程分析特征提取时序特征子集特征提取分类模型诊断结果原始数据图 2-3 风机叶片结冰预测分析流程在建立预测分类模型的时候，需要考虑风机结冰数据的类不平衡问题。一般来说，对数据进行重采样能够有效降低类不平衡带来的建模误差。将结冰样本进行过采样，将非结冰样本进行欠采样，或者两者同时进行，以达到结冰和非结冰样本在模型训练时有基本相近的比例。如果结冰样本足够多，也可以选择对类不平衡问题不敏感的分类模型进行建模。 2.风机结冰物理模型与特征提取根据 Makkonen 关于物体表面覆冰模型 [1]，在给定环境温度的条件下，单位时间内物体表面的覆冰质量可由如下关系表示 1 2 3dM V S dt    （ 1）其中， 1 2 3,,  表示结冰状态的 3 个系数，分别为撞击系数、黏着系数和增长系数。撞击系数表示水滴从无穷远能够成功撞击物体表面的比例（概率）；黏着系数表示水滴撞击物体表面后能够附着而不反弹的比例（概率）；增长系数表示水滴附着在物体表面后能够持续存在而不融化的比例（概率）。  表示空气中水蒸汽密度（含水量）， V 表示无穷远来流速度（风速）， S表示物体表面积，为常数。在风机结冰预测问题中，由于风机叶片各个截面所处地点几乎相同，叶片大小空间尺度远远小于空气含水量变化的空间尺度，因此含水量  可以认为是定值。黏着系数 2 在绝大多数情况下均为 1。因为当温度在 -5℃ 0℃ 时，物体表面会产生雨凇结冰。此时物体表面会被一层粘性液体所覆盖，此时水滴几乎不能从撞击中逃脱。当温度低于 -5℃ 时，会产生雾凇结冰，这时由于温度过低水滴在接触物体表面会瞬间凝结成冰，也不会从物体表面逃逸出去。增长系数 3 在雾凇结冰时为 1，因为水滴完全冻结，不会融化。在雨凇结冰时， 3 和含水量有关，一般情况下，含水量越低， 3 越大。由于含水量是定值，因此在风机叶片结冰预测的问题中，增长系数 3 也是常数。因此Makkonen覆冰模型可以简化为 1dM C V dt    （ 2）为了能够提取表征叶片结冰质量的特征参数，我们并不关心常数的具体取值，只关心能够用观测数表征结冰质量的函数形式。因此只要确定由观测参数表征撞击系数的形式，结冰质量就可以通过观测参数表征。 Finstad 等人 [2]通过半经验公式拟合了撞击系数 1  1 0 .0 2 8 0 .0 4 5 4A C B     （ 3）其中    0 . 0 0 6 1 6 0 . 6 8 80 . 4 9 8 0 . 6 9 40.381221 .0 6 6 e x p 1 .1 0 3 ,3 .6 4 1 e x p 1 .4 9 7 ,0 .0 0 6 3 7 1 0 0 .,,9aA K KB K KCdvd R eK R e DKd 为水滴直径，在叶片结冰过程的时间尺度内，近似为定值；D 为物体截面平均直径； a 为湿空气密度，为定值； v 为来流速度，等于 V ；  为空气的粘性系数，为常数。通过上述分析可知，撞击系数和来流速度 v 具有直接的对应关系，其他参数由于全部是常数，因此可以推断出  1 fv  （ 4）将（ 3）（ 4）代入（ 2）可以导出结冰质量和风速之间的关系，即 1.762dM Vdt  （ 5）上式说明，在给定温度条件下，空气含水量、空气密度、水滴形状均不变的情况下，单位时间内叶片结冰质量取决于风速的大小，风速越大，结冰质量越大。当在利用观测数据建模时，经过归一化后的风速，利用近似的风速的平方也能较好的拟合上述模型，因此，在误差允许的范围内，可以用 2dM Vdt模型代替。当温度发生变化时，结冰质量的关系模型变为   2dM f T Vdt  （ 6）另一方面，为了能够更加直观的表示结冰质量对风机功率的影响，需要进一步利用功率 -结冰质量关系来验证（ 6）模型。在非结冰情况下，风机会按照正常模式下的风机功率特性曲线工作，发生结冰后，实际运行的功率曲线会偏离正常模式，而这个偏离程度意味着结冰的严重程度，和结冰质量是等价的。首先，利用模糊自适应神经网络对训练数据的正常样本拟合功率特性曲线得到功率特性曲线的基线模型，然后利用该模型估计测试数据下的功率输出。测试数据包含结冰和非结冰数据，那么结冰严重程度可以表示为   2r e a l p r e dr e a lPP dMW f T VP d t    （ 7） ,real predPP分别表示测试数据的实际功率和通过基线模型估计的功率。（ 7）表示风功率的相对残差，图 2-4 显示了结冰数据（红色部分）和非结冰数据（蓝色部分）的功率相对基线模型的偏离程度。图 2-5 表示了观测数据的结冰严重程度和风速的关系。图 2-4 功率特性线拟合图 2-5 结冰质量风速关系通过图 2-5，我们可以非常明显的区分大部分的结冰数据和非结冰数据。在结冰的状态下，结冰质量和风速具有明显幂律关系，虽然这个关系还受到环境温度的调制作用，但是在非结冰数据上，这种关系是不存在的。因此，我们可以提取结冰预测的第一组重要的特征结冰质量的度量参数（ 2V ， T ）、结冰严重程度（ W ）。风机功率对风速的响应模型进一步解释了为什么风功率的偏差能够表示结冰的严重程度。 Rahimi 等人 [3]揭示了风机功率和风速之间的关系 312 apP S C V    （ 8）这里 pC 为风能利用率， S 为叶片面积。在正常情况下，1, constantpCS ；而在非结冰状态下，风能利用率小于 1，并且叶片面积也会由于覆冰而稍加改变。该模型说明在风速一定的情况下，风机输出功率和结冰程度有明显的单因素对应关系。定义风能综合利用率 Ctotal pSC 。在图 2 所示的功率特性曲线的基线模型下，可以将实际功率和拟合功率分别用（ 8）式来表示 331212 c o n sta n t 1rea l a rea l rea lp red a p red p redp red p redP S C VP S C VSC      ，基线模型表征正常情况下的功率 -风速响应，因此可以定义在任意时刻的风机风能综合利用率 real real realtotalpred pred predS C PC S C P 风机风能综合利用率可以作为另一个重要的结冰预测模型的特征，它是结冰严重程度对风机性能影响的量化指标。通过对风机叶片结冰过程的机理分析和物理建模，我们提取了若干表征结冰的状态和本质属性的特征，如表 2-1 所示这些特征能够作为建立预测模型的输入参数，能够最大程度地为分类算法提供相互独立的信息，在保证预测精度的前提下，降低分类模型的复杂度，提高模型的泛化性能。表 2-1 风机叶片结冰预测模型瞬态特征特征描述单位 W 结冰严重程度 V 平均风速 m/s 2V 风速平方 m2/s2 realP 输出功率 kW Ctotal 风能综合利用率 WindDirection 风向角  相对湿度 T 平均环境温度 ℃ 3.风机结冰过程演化分析风机叶片结冰是一个缓慢的能量累积过程，在结冰早期由于现象不明显难以发现，然而早期结冰的检测对于机组健康运行至关重要，如果能够检测出早期的结冰状态，则能够防止机组由于严重结冰导致的经济性和安全性下降的问题。然而，仅通过上述物理模型提取的瞬态特征难以实现准确的早期结冰预测，需要通过对结冰过程的演化规律进行分析，提取结冰演化过程中的统计特征和时序特征，才能更好的实现早期结冰预测。图 2-6 为在结冰质量 -风速的关系中，早期结冰数据（橙色圆圈内的红色数据）的状态。可以看出，这些早期结冰数据的结冰严重程度并不高，和非结冰数据（蓝色部分）几乎重合，这部分数据通过观测数据和瞬态特征不能很好的分类，因此需要提取其他特征来解决这一问题。图 2-6 早期结冰数据风机结冰的过程具有很强的周期性，结冰周期一般为早期结冰 -明显结冰 -严重结冰 -除冰 -不结冰。因此为了分析结冰全周期的演化规律，首先需要将原始数据序列化，将其分割成若干片段。每个片段为一个完整的结冰过程的数据，或者一段给定的连续时间的非结冰数据。通过训练数据的标签和除冰设备开启时设备振动的周期性变化，将原始数据分割成时间序列片段。图 2-7 和图 2-8 分别为一个结冰周期和一个非结冰片段在结冰质量 -风速关系中的分布模式。在一个结冰周期内（ 1-2 小时），环境温度的变化可以忽略不计，从图 2-7 红色部分可以看出，风速和结冰质量近似满足 2dM Vdt  的关系，而曲线的统计特性能够定量展示了一个结冰周期内风速、结冰程度的综合演

注意事项

本文（工业大数据创新竞赛白皮书（2017）.pdf）为本站会员（江山易美）主动上传，环境100文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知环境100文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？