数据分析包括大数据分析,在企业的业务中特别是在传统的商务行业,已有多年的应用实践在消费者市场的营销中已成了必不可缺的技术。随着工业互联网和智能淛造的兴起和发展工业大数据技术也越来越受到各方关注。在“中国制造2025”的技术路线图中工业大数据是作为重要突破点来规划的,洏在未来的十年以数据为核心构建的智能化体系会成为支撑智能制造和工业互联网的核心动力。
对制造企业而言不论是新实施的系统還是老旧系统,要实施大数据分析平台就需要先弄明白自己到底需要采集哪些数据。因为考虑到数据的采集难度和成本大数据分析平囼并不是对企业所有的数据都进行采集,而是相关的、有直接或者间接联系的数据企业要知道哪些数据是对于战略性的决策或者一些细節决策有帮助的,分析出来的数据结果是有价值的
比如企业只是想了解产线设备的运行状态,这时候就只需要对影响产线设备性能的关鍵参数进行采集
再比如,在产品售后服务环节企业需要了解产品使用状态、购买群体等信息,这些数据对支撑新产品的研发和市场的預测都有着非常重要的价值
因此,建议企业在进行大数据分析规划的时候针对一个项目的目标进行精确的分析比较容易满足业务的目標。明确目标以后就要着手开始搜集数据并进行预处理了。本期格物汇将跟大家介绍企业如何实现对工业大数据的预处理。
首先我们看看数据是如何获取的在现实生活中,我们所面对的问题往往都是抽象复杂的。我们来看如下两个例子:
1、如何提升产品的良率
可能這是制造业最为普遍的一个问题如果我们要分析解决这个问题,常常就会问到:什么产品有多少条产线在生成?经过了哪些机台影響产品良率的因素有哪些?我们可能会提出很多很多这样的问题解决这些问题需要对相关业务知识非常了解,尽可能多的找出与问题有關的数据
这问题更加复杂一些,虽然我们每个人的大脑每天都在做人脸识别但是大脑如何工作的却异常难懂。我们可能需要做很多科研工作去挖掘到底哪些数据会影响到人脸识别的正确率。如果这些数据本身没有很可能还需要进行测量采集,比如两眼之间的距离嘴的宽度和长度等等。当然我们还会评估采集的成本,并对这些数据有效性进行评估验证我们的成本是否值得去花费精力测量。
数据采集以后数据往往存放在数据库或文件系统中,我们需要把他们导入到算法模型中进行训练得到我们想要的模型。但是我们的数据往往杂乱无章总的来说,数据一般存在如下几类问题:
我们的数据中常常出现字符型时间型,数字型等多种数据类型其中:字符型是無法代入模型计算的,所以我们根据需要可以对字符型数据进行编码转换。常用的编码方法有:
数字编码:对于有大小比较的字符型数據可以直接转换成数字编码。比如:
Onehot编码:对于没有大小比较的字符型数据可以使用Onehot独热编码。比如:
时间类型往往是一类特殊的数據把时间简单看成一个实数的话,往往不符合逻辑对于带时间的数据,我们通常使用时间序列的分析方法进行分析有时候我们更加關注的是两列时间的差值,这时我们可以构建时间差值列作为新的变量加入模型之中
数字型往往是导入模型进行训练的主要部分,数字型又可以细分为离散型和连续型因为离散与连续的数据分布显著不同,我们可以对其进行分开处理数字型之间各个列常存在量纲差异,有的数据可能很大有的数据可能很小,我们需要去除数据量纲防止模型对数据较大的列进行偏倚(数据值较大时通常方差也较大)。常用的数据去量纲的方法有最大最小值归一化法均值标准差标准化法等等。
我们期望数据格式是表结构矩阵格式,或者是张量格式然而我们拿到的数据往往不是格式化的数据,比如机台的日志数据图像数据,音频视频数据我们需要对上述数据转换,把数据格式轉换成我们想要的格式
数据中还会出现缺失值,异常值等异常这些情况也会强烈影响到模型的训练,我们需要对空值进行补值如何補值需要我们对数据非常了解,才能推断出该用什么值来补值才不会改变原有的数据分布。一般的补值方法有:0值补值均值补值,中位数补值按上一个数补值,移动平均补值线性插值,相关列补值法等等对于缺失值比例较大的列,可以采取直接删除的方法异常徝则需要创建规则,对异常值进行识别再用正常的值进行替换,故异常值也有类似于缺失值的替换方法
本文作者:格创东智OT团队(转載请注明作者及来源)