数据挖掘案例一:窃漏电用户的识别

2019-04-14 19:24发布

最近在准备数学建模,其中的很多问题涉及了数据的处理挖掘,同时,机器学习和数据挖掘也是我以后想从事的方向,因此我花时间阅读了《matlab数据挖掘分析与实战》,下面是书中的第一个实战主题。 数据
1、电路负荷信息
包括电路上的各项电流、电压、功率等、
2、窃漏电报警消息
不准确的报警消息,可能存在误报
1、数据获取
窃电是一个从开始窃电到结束窃电的过程,题目中所给的电路负荷信息为每十五分钟的数据,时间较短,为了反应整个窃电的过程,将每天的总有功功率求和得到每天的总用电量,
2、数据分析
(1)分布分析
对五年来所有用户的窃电情况进行分析,发现非居民类别不存在窃电的情况
(2)周期性分析
随机选取一个正常用户和非正常用户,对他们用电符合的周期进行分析。发现正常用户的周期呈现波动趋势,窃电用户则出现下降趋势。
3、数据处理
(1)数据清洗
过滤掉非居民用户的用电量,同时由2中数据分析发现,周末的用电量普遍较低,也过滤掉周末的数据
(2)缺失值处理
利用拉格朗日插值处理缺失的数据
(3)数据变换
用电负荷中的电流、电压、功率等数据虽然直观,但是要构建更加具体和可靠的专家评价指标
1)电量趋势下降指标
2)线损指标
3)终端报警指标
4、构建专家样本
将1)、2)、3)中的数据作为输入,用户实际是否存在窃电作为输出,构建专家样本,作为后续模型的训练数据
5、构建模型
分别利用LM神经网络模型和CART决策树模型进行识别,并比较ROC曲线,比较两个模型的结果
6、窃漏电诊断
针对一些判断错误的数据,再进行一些特征的提取和判断。