工业大数据的实践与认识

工业作为国民经济的核心要素一直为各国政府重视,特别是随着物联网、大数据、人工智能、5G等技术的发展,世界各国都加快了工业数字化转型的步伐。从德国“工业4.0”战略,到美国“制造业复兴”计划,工业大数据作为制造业数字化转型与智能化升级的关键技术,受到学界和产业界的普遍关注。工业门类众多,产品形态和生产工艺差别很大,行业生态和企业规模不同,面临的具体问题也不尽相同。


但从宏观看来,提质、增效、降本、安全等是永恒的主题,结合不同的行业特征,形成了若干工业大数据的典型场景和模式,这将在文中详细讨论。基于这些典型模式的数据需求分析,文中将剖析工业大数据特点及技术挑战。针对这些挑战,还将探讨工业大数据的关键技术。


1.工业大数据的发展现状与趋势


市场规模:与大数据市场一起稳步成长随着智能制造与工业互联网概念的深入,工业产业进入了新一轮的全球性,互联网、大数据与工业的融合发展成为了新型工业体系的核心,工业大数据的应用将带来工业生产与管理环节的极大的升级和优化,其价值正在逐步体现和被认可。贵阳大数据交易所统计资料显示,2018年我国工业大数据市场规模约为292亿元,较上年同比增长41.3%,增速较快。整体来看,工业大数据全球市场呈不断增长趋势。我国工业大数据在相关政策方针的推动下也有着可观的增长速度。

表1 大数据及工业大数据规模


行业应用:工业行业头部企业引领大数据应用


不同行业因为其产品形态、生产工艺差异,在大数据应用范围也有较大差异。日本RIETI研究中心(The Research Institute of Economy, Trade and Industry)在2015年底调查了539家制造企业的大数据使用情况。按照产品形态,他们将制造业分为装备制造(B2B end product)、部件生产(B2B end component)、原料生产(B2B Material)、个人消费品制造(B2C)等4种类型,头部企业仍是大数据使用的主力军。因为装备制造、材料生产的复杂关联,这2类头部企业在公司层面的大数据应用比例高于其他类别。


表2 不同类型行业的大数据应用状况


个人消费品企业的大数据主要集中在销售、管理与计划、营销等部门级大数据应用上。P w C在2016年对26个国家2000多家制造业的调查业表明了类似的的态势,“两化“基础好的企业才有推进大数据的基础,头部企业更加关注生态和企业整体层面的大数据,支撑新业务模式建设,中部企业更加关注关键环节的提升,个人消费品制造业更侧重于个性化定制、个性化营销、供应链等方面的大数据。


应用类型:浅层次的应用仍占主导


工业互联网产业联盟在2019年对对国内外366个工业互联网平台应用案例进行了统计分析,在很大程度上反映了工业大数据应用的状况。当前平台应用主要集中于设备管理服务、生产过程管控与企业运营管理三大类场景,占比分别达到38%、28%和18%。资源配置优化与产品研发设计获得初步应用,但总体仍有待培育,占比分别为13%和2%。国外制造企业数字化水平相对较高,平台应用更加侧重于设备管理服务,占比接近50%。如设备健康管理应用占比 39%,产品后服务占比10%。同时,在现有生产管理系统基础上,依托工业互联网平台进行更加有效的生产过程管控也是国外平台应用的重点,占比24%。但总的来说,深层次的分析应用仍然欠缺。


数据资产:IOT和外部数据是增量数据的主力


日本RIETI研究中心对6类常见数据的存量时长、使用频度进行的调研,如下表所示,存量时长通常可以满足大数据应用的需求,但目前使用频度还都比较低(还是决策辅助支持的角色)。大数据应用的重点是将不同领域的数据按照大数据应用主题有机融合。


随着物联网、互联网发展,如何利用IO T的高频监测数据去提升预测或异常检测精度是很多P H M(设备健康与故障诊断)应用的新动能,在质量优化中,结合机台实时过程数据也是新课题。随着大数据的深入,高频应用也将不断涌现。


2.工业大数据的典型应用场景


何为工业大数据?工业大数据与现有业务应用系统的关系是什么?有哪些不同类型的数据应用模式?本部分内容将尝试从业务领域、应用系统、数据应用手段、统计学习算法等四个视角进行探讨。


业务领域的视角


对于制造未来的发展模式,业界有不少好的提法,包括精益(L e a n)制造、柔性(Flexible)制造、绿色(Sustainable)制造、云制造(Cloud)制造、敏捷(Agile)制造、自组织(Holonic)制造、数字(Digital)制造、智能(Intelligent)制造、智慧(Smart)制造等,以应对不同和核心需求(成本竞争压力、创新速度、个性化需求、可持续性发展等)。工业大数据是支撑制造模式的重要使能技术。


图1 大数据应用场景-业务领域的视角


在工业数据的应用模式上,业界从不同角度提出了很多类似的思想。德国“工业4.0”强调通过横向全供应链集成、纵向全集成自动化(智能工厂)和设计工程全数字化集成这3条技术路线,构建基于物理信息系统(Cyber-physical System,简称CPS)的全新生产环境,实现以数字制造为核心的第四次工业。


美国NIST的提法是从产品生命周期(设计、工艺规划、生产工程、制造、使用和服务、废弃和回收等6个阶段)、生产系统(设计、修建、调试、运营和维护、退役和回收等5个方面)和商务(采购、制造、交付、售后等供应链活动)这3项制造生命周期维度去构建智慧制造(S m a r t Manufacturing System)。


学术界也提出过类似的观点,P o r t e r James与Heppe lmann探讨了互联的产品,结合大数据分析,如何打造服务型制造模式,甚至柔化了制造业和服务业的固有边界。《工业大数据(2019版)将工业大数据典型的应用场景主要概括 为智能化设计、智能化生产、网络化协同制造、智能化服务和个性化定制等五种模式。日本RIETI研究中心和PwC也从业务部门和业务模式的角度提出了类型的框架。


数据应用手段的视角


数据分析和应用是实现大数据价值的主要技术手段。根据技术手段,可把问题规约到如下表所示的4种类型问题,不同问题的应用前提和需要解决的挑战也略有不同。


图2 数据应用场景中主要技术关注点


统计类和专家知识自动化的需求,主要是对工业大数据平台的要求(多类型数据的有机融合、以设备/工艺为中心的全维度数据查询引擎、非侵入式的数据分析并行化等)。业务人员给出业务逻辑,通常不完备、不确定,需要利用大数据进行精细化,比如,“存在2H z的主振动分量”的业务逻辑已经非常明确,但在变成可自动化执行的引擎前,要细化“2H z”的范围区间、“主分量“(占总能量的15%之上?还是比第二高分量高5倍?)的定义。


大数据情形下的运筹优化和经典调度在技术挑战上没有本质区别,关键是如何定义一个合适的范围,很多业务因素缺乏数据支撑、很多业务逻辑用数学规划语言描述太复杂(可以用规则)、约束松弛逻辑复杂,实际中常采用“规则+数据规划”的方式去求解。


统计学习算法的视角


基于对业界的粗浅理解和一些实践,我们拟将工业大数据的应用归纳为如上图所示的3类典型分析场景:


图3 工业大数据的三大典型业务方向


第一类,智能装备/产品,通过产品的互联和分析,提高后服务质量,指导研发创新,支撑定向营销等;第二类,智慧工厂/车间,打通不同生产单元与业务环节,结合不同时空颗粒度,从效率、质量和安全的角度,保证制造过程的可视、可溯、可决;第三类,产业互联,借由数据的融合与深度分析,提高协作效率,支撑新商业模式。


不同行业的侧重点有所不同,高端装备制造业多强调“服务性制造”和“智能装备”,化工行业则强调“安稳长满优“,电子行业以产品质量为核心,石油石化则注重资产管理和生产效率提升。


应用系统的视角


大数据应用系统作为一个新兴技术,如何与现有的企业信息化和自动化(以下简称“两化”)应用体系融合是需要回答的问题。


不同行业的两化基础不同,同一行业的不同企业发展阶段也不尽相同。为讨论方便,这里借用IS A-95企业信息架构参考模型。IS A-95将制造业信息系统划分为物理过程(Level 0)、传感层(Level 1)、监控层(Level 2,如DCS/SCADA)、生产管理层(Level 3,如MES)、经营管理层(Level 4,如ERP/SCM)等5层。工业大数据在既有的基础上,从更全要素、更长时空颗粒度、更广业务环节上,实现贯穿多个L evel的新型应用。但从最后实现的功能上来看,工业大数据应用大多落在L evel 4(企业全局甚至产业链);在设备运维中也有不少Level 2的应用(如故障预警等);在两化基础差的行业,也有一些大数据应用实现了Level 3的功能。


3.工业大数据的特点与挑战


对于工业大数据的特点,这里简要总结为4点:


1)工业大数据具有多样性、多模态、高通量和强关联等特性。


从数据的来源看,工业大数据主要包括三类:第一类是企业运营管理相关的业务数据。这类数据来自企业信息化范畴。第二类是设计与制造过程数据。主要是指工业生产过程中,装备、物料及产品加工过程的工况状态参数、环境参数等生产情况数据。第三类是企业外部数据,包括工业企业产品售出之后的使用、运营情况的数据,还包括大量客户、供应商、互联网等数据。工业大数据的这些特性对多源异构数据存储技术提出了很高的要求,不仅需要高效的存储优化,还需要能够通过元数据、索引、查询推理,支持高效便捷的数据读取,实现多源异构数据的一体化管理。


图4 工业大数据平台架构


2)工业数据资源不丰富


宏观层面上,工业领域的数据类型和数据量是非常丰富的。但对于微观的大数据应用和分析,有价值的数据往往非常稀缺。


数据样本通常严重有偏(biased):很多工业系统是被设计为高可靠、严格受控的系统,绝大多数时间稳定运行,异常工况相对稀缺(对数据分析来说是“高价值”),已经标记的有效样本就更是难能可贵。还有一些工业场景要求捕获故障/异常瞬间的细微状况,才能还原和分析故障发生原因,这对数据监控和后台数据存储提出了很高的要求。


维度不完整和序列的间断(censored):因为各种原因,往往很难实现全维度的数据集的有效关联,另外在时间或空间序列上也常常存在缺失,从当前数据并不能完整勾画出真实的物理过程,基于此的C P S模型的应用范畴是需要谨慎度量的。这两点也造成了 “数到用时方恨少”的尴尬。


图5 面向分析优化的工业大数据存储架构


根据中国信息通信研究院和工业互联网产业联盟2018年底对国内74家工业企业的调研,我国工业企业的数据资源存量普遍不大,66%的企业数据总量都在20T B以下,还不到一个省级电信运营商日增数据量的1/10。针对这种状况,工业大数据建设应该量体剪衣,但不应是“看菜下碟”的“被动响应,而是从业务去发掘需求,从技术的角度思考如何获取更多数据资源(新传感技术、软测量、内部信息整合、数据联盟等),从数据的角度思考如何用新模式或新技术去提升业务。


3)工业数据有很强的上下文信息(Context)


工业是一个强机理、高知识密度的技术领域,很多监测数据仅仅是精心设计下系统运行的部分表征。工业领域通常有大量的机理模型、专家经验的深厚积累,可以为数据分析缩小参数空间、提供有用的特征变量(如齿轮箱振动的倒谱参数),工业数据分析通常隐性或显性利用大量的行业知识(问题定义、数据筛选、特征加工、模型调优等),工业大数据分析通常需要统计学习(或机器学习)算法与机理领域模型算法的融合,以期创造更大的价值。


4)工业大数据的人才体系是明确二分的


工业大数据的价值变现通常需要统计学习和机理模型的交叉融合,然这两个领域模型通常属于不同的技术门类。并且工业企业通常以工程技术人员为主。这种技能的明确分割严重制约了工业大数据生态的发展。


除了以上共性的挑战外,对于单个制造业企业,在推进工业大数据时候,还面临管理模式转变、人才短缺、短期成效与长效机制等各个方面的挑战,这些挑战需要大数据规划与实施中有一个系统有效的方指导。


4.工业大数据的关键技术


工业大数据平台


为有效支撑海量异构工业数据存储与查询,有机融入现有的知识、经验与分析资产,消除技能对工业大数据应用发展造成的障碍,需构建一套支撑工业大数据分析的工业大数据平台技术,包括数据存储与查询、分析建模与执行,以及数据和资产安全的保证手段。


多源异构数据的存储与查询


通过面向工业数据存储优化的工业大数据湖技术,实现多源异构数据的一体化、低成本、分布式存储;通过面向工业大数据分析负载优化的存储读写技术,实现分析工具对数据的高效存取;通过一体化元数据技术,实现对数据的工业语义化组织与高效检索。支持时序数据存储、关系数据存储、对象存储、文件存储和OLAP。


工业大数据的强机理与强关联,决定了需要建立起描述业务上下文的行业模型,才能有效支撑后面的分析与应用,例如,设备全生命周期档案(设备智能运维场景)、物料流转与工艺状态档案(质量分析场景)、需求动力学关系图(需求预测场景)等。这就需要在多源异构数据存储引擎的基础能力上,提供行业数据模型建模和查询能力。以设备的全生命周期档案为例,它记录设备的过往今生以及不同维度的信息,包括设备结构(B O M)、维修履历、故障记录、异常预警记录、工况、档案、基本信息等维度。


行业数据模型的建模,不仅仅是多个数据源Data Schema层面的关联,还包括业务语义层面的处理,包括编码间的映射关系(例如,设备编码规则改变前后的对映)、同义词(例如,风速在不同时期数据标准中的字段名可能不同)、字段名称相同但业务语义不同(以油气生产中的“产量”为例,井下产量、井口产量、集输产量等不同口径的“产量”,因为测量方式、测量环境、测量标准不同存在很大差别)。大数据平台在提供行业建模工具时候一定要注意业务语义层面的需求。


以行业数据模型为基础,大数据平台提供基于图搜索技术的语义查询模型,以友好的方式支撑设备管理分析。以风机为例,当叶片断裂事故发生后,整机制造商运维主管想查看确认是否为叶片批次问题(即和当前风机使用同一叶片厂商的风机最近机舱加速度是否正常?),有了图语义模型的支持,应用开发者不需要写复杂的表间关联语句,这样将大大降低应用开发的工作量。


工业知识图谱


在设备运维中,除了设备档案数据,通常还存在大量的故障案例、设备维修过程记录等非结构数据。这些记录中蕴含着大量的故障征兆、排查方法等实操经验,对后续的运维有很大指导和借鉴作用。通用的文本分析,由于缺乏行业专有名词(专业术语、厂商、产品型号、量纲等)、语境上下文(包括典型工况描述、故障现象等),分析效果欠佳。这就需要构建特定领域的行业知识图谱(即工业知识图谱),并将工业知识图谱与结构化数据图语义模型融合,实现更加灵活的查询。


工业大数据治理与管控


用数据,更要“养”数据。数据质量是大数据价值的生命线,数据治理是已被金融、电信、互联网等行业证明的数据质量保障的主要手段。调查显示,我国工业企业只有不到1/3的企业开展了数据治理,51%的企业仍在使用文档或更原始的方式进行数据管理。工业企业应该把数据治理放在与大数据平台建设同等重要的位置。


工业大数据蕴涵着工业生产的详细情况及运行规律,也承载了大量市场、客户、供应链等信息,是工业企业的核心机密和工业互联网的核心要素。在数据存储层和分析工具运行时建立的统一安全管理技术,实现对数据细粒度全生命周期安全管控;在分析资产知识产权保护部分,通过文件级别的高级加密标准进行加密。


工业大数据规划与实施方法


大数据分析规划宜采用“业务导向+技术驱动+数据支撑”的方式,基于技术可行性的客观评价,考虑全生命周期和后续迭代,统筹规划建设,包含6个步骤。


应从关键业务目标分解出发,关联到具体的业务领域(研发、建设、运行、运维、安全环保、销售、采购等),从重要度和紧迫度的角度,对可能的业务分析问题进行评估。同时也思考新的大数据应用如何融入到当前的业务管理或生产管理闭环中去。信息欠缺的情形可以分为“有但未利用、有但不及时、有但不精准、可采但未采、想采但缺乏手段、采集成本太高“等6种类型,识别其属于哪种类型,思考对应的业务或技术手段以及可实现性,比如,加装传感(如视频识别)、增加外部数据源(如外部市场动态爬取)、通过大数据平台的业务整合模型提高信息的完备性、通过软测量通过流计算提高信息的实时性、通过软测量实现关键信息的估算、通过数据联盟(data federation)解决数据量不足的问题。最后,综合业务价值和数据完备度,进行多个项目的优先排序。


一般来说,大数据模型的作用与机理复杂度密切相关。这里从产品相似度、机理复杂度两个维度,将分析算法应用分为6类范式。从工业产品的相似度来看,可分为大量相似产品(如风力发电机)和少量定制化产品(如就地建设的化工反应塔)。相似产品在数据分析时可以充分利用产品间的交叉验证,而少量定制化产品应深度挖掘时间维度。从产品机理的复杂性来看,有无需机理模型的black-box产品(如电子消费品,通常不会深入元器件内部去分析)、简单明确机理产品(如风力发电机)、复杂机理产品(如鼓风机、化工厂)。复杂机理产品在工业大数据分析时,应更加重视机理模型和专家经验的融入。


图6 工业大数据统筹规划建设步骤


相对其他行业,工业是一个强机理的复杂系统。工业大数据应从物理世界的“概念“视图和”数字“视图两个角度,去审视数据资产和模型/应用定位,以消除一些不可落地的“伪命题”(不要浪费资源)、没有基础的“非分之想”(不如退而求其次)、刻意拔高“虚假高科技”(其实有更简单的解决方式),另外,也可以帮助分析师把握住核心问题与要素,根据二八原则,放弃细枝末节,降低对数据的要求和建设成本,加速价值变现之路。


5.总结


工业大数据是推进工业数字化转型的重要技术手段,需要“业务、技术、数据“的融合。这就要求从业务的角度去审视当前的改进方向,从IT、OT、管理技术角度去思考新的运作模式、新的数据平台/应用/分析需求,客观评估技术可实现性,从数据的角度审视如何通过信息的融合、流动、深度加工等手段,全面、及时、有效构建反映物理世界的逻辑视图,支撑决策与业务。本文从工业大数据发展趋势、大数据范畴、特点的分析,以及关键平台技术、分析技术的讨论,尝试为工业大数据的建设与实践提供一些参考。


原文刊载于《软件和集成电路》2019年第9期 作者:田春华 杨锐 崔鹏飞

本文来源于网络,本着学习交流的目的进行转载,已标注原始作者和出处,如存在异议,请联系editor@xingongye.cn。如您对内容有疑问,请告之,以便我们及时处理。

标签: 数码电器测评