工业大数据分析工业大数据分析教学讲义.docx
《工业大数据分析工业大数据分析教学讲义.docx》由会员分享,可在线阅读,更多相关《工业大数据分析工业大数据分析教学讲义.docx(16页珍藏版)》请在第一文库网上搜索。
1、和强关联等特性,这里主要围绕工业大数据存储与管理技术中多源异构数据高效管理技术和多模态数据集成技术两类关键技术进行介绍。多源异构数据管理技术多源异构数据是指数据源不同、数据结构或类型不同的数据集合。各种工业场景中存在大量多源异构数据例如,在诊断设备故障时,通过时间序列数据可以观测设备的实时运行情况;通过BOM图数据可以追溯出设备的制造情况,从而发现是哪些零部件问题导致异常运行情况;通过非结构化数据可以有效管理设备故障时的现场照片、维修工单等数据;键值对数据作为灵活补充,能方便地记录一些需要快速检索的信息。数据源不同、数据类型不同,使得这类数据集的使用变得非常复杂,因此大规模多源异构数据管理技术
2、变得十分重要。为使这些多源异构数据各自发挥其价值,不仅需要高效的存储管理优化与异构的存储引擎,在此基础上还需要能够通过数据融合对数据的元数据定义和高效查询与读取进行优化,实现多源异构数据的一体化管理,从而最大程度上榨取数据价值。多源异构数据管理需要突破的是针对不同类型数据的存储与查询技术,并在充分考虑多源异构数据的来源和结构随着时间推移不断增加与变化的特定的情况下,研究如何形成可扩展的一体化管理系统。(3)多源异构数据管理需要从系统角度,针对工业领域涉及的数据在不同阶段、不同流程呈现多种模态(关系、图、键值、时序、非结构化)的特点,研制不同的数据管理引擎致力于对多源异构数据进行高效地采集、存储
3、和管理。当前,国产数据库及数据管理引擎仍处于新兴发展阶段,在传统的结构化数据之外,针对多源异构数据(包括时序数据、过程与BOM图数据,以及工程非结构化数据等),开发稳定而高效的数据管理引擎、并真正落地到工业领域变得愈发重要。针对海量的工业时序数据在查询高效性和接入吞吐量方面的需求,需要构建能够满足数据边缘接入与缓存、高性能读写、高效率存储、查询与分布式分析一体化的时序数据管理系统,配合缓存、分布式计算与存储框架等组件,以满足功能和易用性需求。同时需要提供基于SQ1标准的数据查询接口给工业用户以降低使用门槛。工业领域的非结构化数据,面向仿真、试验等场景的海量小文件的挑战,要求按产品生命周期、BO
4、M结构等多种维度进行灵活组织和高效查询,同时对数据能够进行批量读取分析,因此需要构建面向工业场景的支持海量非结构化文件建模、存储、查询和读取的技术系统。多源异构数据管理技术可有效解决大数据管理系统中由模块耦合紧密、开放性差而导致的系统对数据多样性和应用多样性的适应能力差的问题,使大数据管理系统能够更好地适应数据和应用的多样性并能够充分利用开源软件领域强大的技术开发和创新能力。针对企业自身数据类型和特点,通过量体裁衣式的构件组合,能够帮助工业企业快速开发和定制适合自身需求的制造业大数据管理系统。多模杰数据集成技术工业大数据来源十分广泛,包括但不限于研发环节的非结构化工程数据、传统的企业信息管理系
5、统、服务维修数据和产品服役过程中产生的机器数据等。这些数据格式异构、语义复杂且版本多变。在工业大数据应用中,希望能够将多模数据有机地结合在一起,发挥出单一模态数据无法挖掘出的价值。数据集成是将存储在不同物理存储引擎上的数据连接在一次,并为用户提供统一的数据视图。传统的数据集成领域中认为,由于信息系统的建设是阶段性和分布性的,会导致“信息孤岛”现象的存在。“信息孤岛”造成系统中存在大量冗余数据,无法保证数据的一致性,从而降低信息的利用效率和利用率,因此需要数据集成。在工业大数据中,重点不是解决冗余数据问题,而更关心数据之间是否存在某些内在联系,从而使得这些数据能够被协同地用于描述或者解释某些工业
6、制造或者设备使用的现象。数据集成的核心任务是要将互相关联的多模态数据集成到一起,使用户能够以透明的方式访问这些数据源。集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率;透明的方式是指用户无需关心如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据。更进一步地,数据融合是在数据集成的基础上,刻画出不同数据之间的内在联系,并允许用户根据这些内在联系进行数据查询。在数据生命周期管理中,多模态数据存储分散、关系复杂,在研发、制造周期以BOM为主线,在制造、服务周期以设备实例为中心,BOM和设备的语义贯穿了工业大数据的整个生命周期。因此,以BOM和设备为核心建立数据关联,可以使得产品
7、生命周期的数据既能正向传递又能反向传递,形成信息闭环,而对这些多模态数据的集成是形成数据生命周期信息闭环的基础。针对工业领域在研发、制造和服务各个周期产生的多模态数据,如核心工艺参数、检测数据、设备监测数据等,及其存储分散、关系复杂的现状,需要实现统一数据建模,定义数字与物理对象模型,完成底层数据模型到对象模型映射。在多模态数据集成模型的基础上,根据物料、设备及其关联关系,按照分析、管理的业务语义,实现多模态数据的一体化查询、多维分析,构建虚实映射的全生命周期数据融合模型。在多模态数据集成模型基础上,针对多模态数据在语义与数据类型上的复杂性,实现语义模糊匹配技术的异构数据一体化查询。工业大数据
8、分析(4)工业大数据具有实时性高、数据量大、密度低、数据源异构性强等特点,这导致工业大数据的分析不同于其他领域的大数据分析,通用的数据分析技术往往不能解决特定工业场景的业务问题。工业过程要求工业分析模型的精度高、可靠性高、因果关系强,这样才能满足日常工业生产需要,而纯数据驱动的数据分析手段往往不能达到工业场景的要求。工业数据的分析需要融合工业机理模型,以“数据驱动+机理驱动”的双驱动模式来进行工业大数据的分析,从而建立高精度、高可靠性的模型来真正解决实际的工业问题。因此,工业大数据分析的特征是强调专业领域知识和数据挖掘的深度融合。这里主要对时序模式分析技术、工业知识图谱技术、多源数据融合分析技
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 工业 数据 分析 教学 讲义