干货来了 | 工业时序数据分析“一点通”（上）

欢迎大家来到IT世界,在知识的湖畔探索吧!

你有没有遇到过这样的问题：我有一段数据，它是随着时间等间隔采样的，现在想用某种方法预测出后续一段时间的趋势。这种方法就是“时间序列分析”。和回归分析模型的预测不同，时间序列模型关注事件发生的先后顺序和样本之间的时间依赖性，同样大小的值改变顺序后输入模型产生的结果是不同的。除变量之外，时间因素也是建模时需要考虑的重要因素。

在工业场景中，80%以上的监测数据都是实时数据，且都是带有时间戳并按顺序产生的数据，这些来源于传感器或监控系统的数据被实时地采集并反馈出系统或作业的状态。因此，时间序列分析广泛适用于各类工业场景。

Vol.1

名词解读：时间序列、工业时序数据

从统计意义上来讲，时间序列是按照时间的先后顺序，将某个指标在不同的时间上的数据依次有序排列而得到的数列，这样的数列受到某些因素的影响会展现出一些随机性，该数列中各个数据之间会存在一定程度的依赖关系。

工业时序数据是工业数据资源中的重要应用类型，也是智能制造产业生产经营管理过程中常见的工业数据。

在海量的工业大数据方面，无论是流程工业生产，还是离散制造业，数据的时序特性都很显著。例如，在流程工业中由于生产流程复杂，多个工序之间有较强的时序关系，上游工艺的物料浓度、温度、流速等参数，对下游工艺一段时间之后的相关参数有较强的影响，而且不同的环节可能产生不同的滞后时间、能量积累与消耗等现象；又如，在离散制造业中，零部件的加工误差，会影响一段时间后的装配线上整体产品质量。单个时间点的样本和模型不足以反映这种时间依赖关系。

采集工业数据的传感器数量众多且取样频率快，在短时间内容易累积大量的数据,其呈现出的时间序列性，使得样本往往不满足独立同分布（i.i.d）假设，在分析和建模时不容忽视。因此，通过对工业数据进行时间序列分析和建模，将会更符合实际场景，从而产生较大的应用价值。

Vol.2

聚焦工业场景，详解7类时序数据分析应用

1. 时序分割

时间序列包含的数据量大、维度高、数据更新快，对较长的序列往往很难直接在原始时间序列上进行数据挖掘。而时间序列分割则是将原始的时间序列分割成不重叠的、有序的子序列，使得子序列内的数据元素具有同种性质，能够达到降低时间序列维数、去除部分噪声等效果，是时间序列分析的基础。如下图所示，人在运动过程中加速度计记录的一段较长的时间序列，本质上可以分割为具有不同模式、表示不同动作的三个子序列。注意到这种分割都是通过时序数据本身的模式特征进行的分割，不依赖外部标签或其他信息。

目前在时间序列分割方面常用的算法有变点检测、马尔科夫模型(Autoplait)、多元时间序列分割算法等。时间序列分割的应用可以分成两种：

用于检测对象的系统性变化，当模型的参数发生系统性的变化（例如其统计量是分段稳定的），分割算法可以检测何时发生这种变化；

用于创建时间序列的高级表示，或发现一些重复出现的子模式，来支持后续对时间序列进行索引、聚类、分类、不一致发现、异常检测等操作。

更多工业智能知识分享，欢迎关注寄云科技！

具体应用场景举例

石化设备的工作过程非常复杂，检测数据特征数众多，且长时间连续生产（一般极少有停工时间）。在长期工作中，随着原料、目标产物、环境因素等情况的变化，工况会有变化。在状态预测和评估中，若使用同一模型，可能无法取得精确的预测和诊断结果。因此按照工况，将多元时间序列进行分割，先区分不同的工况，再建立不同工况条件下的预测评估模型，可实现更为精确的状态检测。

2. 时序分解

时间序列往往是由长期趋势变动T、季节变动S、循环波动C和不规则波动L四部分变化叠加或耦合组成的。时序分解即通过加法模型或乘法模型等常用的模型将原始的时间序列拆分为T，S， C， L四部分，测定出各种变动成分的具体数值。从测定各构成因素的数据表现来认识和掌握现象发展的规律，为时间序列的预测奠定基础。

如下图所示，是航空旅客数量的时间序列，通过时序分析方法，可以将其分解为长期趋势变动（trend）和季节变动（yearly/weekly），并根据分解后的各个成分，对未来序列及其置信区间（蓝色区域）做出预测。

目前，在时间序列分解方面常用的模型有很多，较常用的模型有加法模型和乘法模型，很多时候这两个模型是可以相互转换的。这两个模型分别适用于不同情形：

如果季节变动的幅度以及趋势和周期的波动都不随时间变化而变化，即四种变动因素相互独立，则比较适合使用加法模型；

如果季节变动的幅度或趋势和周期的波动随时间变化而变化即四种变动因素间存在着交互作用，则比较适合使用乘法法模型。

时间序列模型分解常用的算法有移动平均分解法、经验模态分解法(EMD)和STL算法（仅能处理加法模型的分解）等。

具体应用场景举例

在矿山实际生产过程中，涌水量预测对于矿山防治水具有重要意义。通过基于时间序列加法分解原理，分离提取涌水量时间序列中的长期趋势、季节指数、循环因子和随机变动参数，并应用熵权法确定各参数权重，建立工作面涌水量预测的非线性回归修正模型，将为矿井涌水量预测提供新思路，为矿山安全开采提供基础资料，是矿山防治水设施如水仓、水泵、排水管路等设计的依据，为矿山的安全生产提供依据。

【注：季节变动因素和循环变动因素的区别：循环变动因素的变动不具有固定周期，但季节变动的具有固定周期同时与特定日期相关。】

3.时序再表征

时序再表征旨在将原始时间序列数据化繁为简，剔除噪声和无关紧要的信息，将有效信息进行再表征和降维，提炼形成特征，得到一个向量表示的函数。一旦得到向量表示，则现有的一些分析任务变得直截了当，如分类任务可以使用现成技术KNN分类器等。

时序再表征通过利用训练数据来学习得到向量表示，充分利用了现有数据集的特点。关于时序数据，目前主要分为两类：连续型序列数据（如某个用户的负荷数据）和离散型序列数据（如设备的工况数据）。

目前比较常用的时序数据再表征的学习方法有time2vec、signal2vec、离散傅里叶变换（DFT）、自适应分段常数近似（APCA）、分段聚集近似（PAA）、符号聚集近似（SAX）和LSTM自编码器等。

例如，对如下图（左）的两个时间序列进行符号化的再表征，转换为长度为9的字符串，它的字母来自大小为4的字母表。下图（右）是进行PAA的结果。

之后，SAX通过9点PAA，将ts1转换为字符串abddccbaa，将ts2转换为字符串abbccddba。符号化序列具有简单和低复杂度的特点，同时在范围查询的过程中提供了令人满意的灵敏度和可选择性。除此之外，符号化的特征表示为现有的丰富的数据结构和字符串处理算法开启了一扇门。

具体应用场景举例

油水两相流动广泛存在于石油工业中，油井内压力降计算及产出剖面生产测井技术均需要了解油水流型特征。目前，在理论上完全描述油水两相流动系统还相当困难，对于如何辨识流型仍是一个难题。而符号时间序列分析中利用符号对时间序列再表征，在符号划分模式下对时间序列进行定量统计，将统计量作为流型辨识的新指标，在区分水包油流型和过渡流型时符号化方面更具有流型辨识特色。通过符号对时间序列再表征，是辨识油水两相流流型的有用的辅助诊断工具。

4.序列模式挖掘

序列模式即在一组有序的数据列组成的数据集中，频繁出现的那些序列组合构成的模式。序列模式将关联和时间序列模式结合起来，重点考虑数据之间维度上的关联性。与关联规则不一样的是序列模式的序列在时间或空间上是有序排列的，结果也是有序的，这样就可以得到比关联规则更有价值的规律。比如关联挖掘经常能挖掘出搭配规律，而序列模式挖掘则能挖掘出带有一定（前后）因果性质的规律。因此，序列模式比关联规则能得到更加深刻的知识。

如下图所示，在一段复杂、带噪声的工业时间序列数据中，发现了A、B、C三段重复出现的模式。其中，放大的下图可以看出，各段形态接近但不完全一致。

目前比较常见的序列模式挖掘的算法有Moen算法、GSP算法、SPADE算法和PrefixSpan算法等。

具体应用场景举例

现代企业中，高度自动化的流程生产系统通常由多个相互连接的设备组成，各设备之间的生产流程及相互影响关系复杂。为发现生产过程中的故障传递和相互影响规则，需要在检测系统的时序数据分析中引入序列模式挖掘技术，利用数据本身的分布特性对连续数值型的时序数据进行符号化，得到适于挖掘的符号序列，通过故障时窗约束、序列集成和序列化简，将多维非同步时间序列转化为与故障相关的时序数据，采用序列模式挖掘算法进行序列模式挖掘，得到以时序模式表示的故障过程的主要变化信息，用于设备的故障诊断以保证设备的无故障运行。

【注：序列模式 = 关联规则 + 时间/空间维度】

5.时序聚类

时序聚类即针对时间序列型数据（非单个样本）进行分组归类，以探索数据间隐藏的分布，与其他统计方法配合，对数据进行预处理。如下图所示，分别从心跳数据的长序列中提取了两个不同的模式和各自的子序列样本，再对各个子序列经过归一化后进行层次聚类。

由于时间序列的特殊性，更多研究的关注点是距离衡量的创新而不是聚类算法的创新。因此时间序列聚类算法主要依赖于经典的聚类算法，要么将其中的距离衡量换成适合时间序列的（如通过动态时间规整(DTW)等），要么将时间序列转换成合适数据（即特征构造，比如最大值、最小值、均值、值域等，还可以计算时间序列的熵及分桶情况，除了时域特征外，还可以做频域特征，如小波分析、傅里叶分析等），从而直接使用现有的算法。

目前比较常用的时序聚类方法有基于距离的聚类算法KMeans和基于相似度计算的层次聚类算法等。

具体应用场景举例

在一些工业设备销售或采购的项目中希望能够对有相似行为的客户做划分，但发现由于客户的很多行为是相互关联的，并且在时间的维度中还会发生变化，可能受过去的影响，也可能不受影响，所以，这一秒和下一秒都是不可确定的，从传统方法的聚类存在局限性。但从长期趋势研究中发现采购的某些行为可能是固定的，比如定期的购买、季节的变换、促销活动的影响等，这些都是和时间周期有关系的，通过使用基于时间序列的聚类的方法不仅能得到这个客户局部的行为规律，也可以看到客户在整体时间周期里的行为的规律，通过观察整体和局部，便能更好进行客户画像。

6. 时序分类

时间序列机器学习的常见任务是分类。给定一组带有类别标签的时间序列，通过训练模型来预测新时间序列的类别。

目前比较常用的时序分类方法有传统的基于动态时间规整(DTW)的KNN算法、基于时间间隔的TimeSeriesForest算法、深度学习算法LSTM和CNN等。

具体应用场景举例

【对运动传感器数据进行分类】

传感器生成高频数据，可以识别其范围内物体的移动。通过设置多个无线传感器并观察传感器中信号强度的变化，可以识别物体的运动方向。

7. 时序预测

时间序列预测法其实是一种回归预测方法，属于定量预测，运用过去的时间序列数据进行统计分析，并对数据进行适当处理，进行趋势预测。时间序列预测法可用于短期、中期和长期预测。

目前比较常用的时序预测的方法有朴素估计法、简单平均法、滑动窗平均法、简单指数平滑法、Arima法和prophet法等。

具体应用场景举例

我国煤矿瓦斯事故已占到煤矿生产过程所发生的事故的80%以上，造成的伤亡占特大事故伤亡人数的90%。因此必须采取有效的防治措施，而防治工作的关键在于瓦斯涌出量预测。

矿井瓦斯涌出是一个动态过程，瓦斯浓度的变换受多种因素共同影响，矿井瓦斯涌出量预测经常出现无法获得一部分变量的情况。而时间序列预测是根据客观事物发展的连续规律性，运用过去的历史数据，通过统计分析，进一步推测未来发展趋势的一种方法。时序预测可通过建立一个描述瓦斯涌出量在一定时间和空间内变化发展的动态模型，反映瓦斯涌出量的变化规律，预测瓦斯涌出量的趋势，对实际瓦斯预测有一定的指导意义。

当前，各类工业数据扮演着越来越重要的角色，对于工业数据的管理能力也成为企业持续健康发展的重要竞争力。随着智能制造技术应用领域不断拓展，智能传感设备被大量应用于实际生产制造场景中，对于时序数据的分析管理，不仅为工业企业科学决策提供参考，同时也为企业自身提升工业数据管理能力提供依据。

【下期预告】：在下期干货分享中，我们将聚焦工业时序数据在电力、煤炭行业的案例实践分享，进一步了解如何运用工业时序数据分析，帮助企业挖掘数据价值，持续优化生产，敬请期待！更多工业智能知识分享，欢迎关注寄云科技！

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://itzsg.com/80497.html