数据探索-白红宇

数据探索

阅读量：4603 次

发布时间：2019-06-09

本文共 3087 字，大约阅读时间需要 10 分钟。

1,数据质量分析

数据质量分析是数据挖掘中数据准备环节中的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁

数据质量分析的主要任务时检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应的分析的数据。脏数据一般包括:
- 缺失值
- 异常值
- 不一致的值
- 重复数据及含有特殊符号(如#、¥、*)的数据

2,缺失值分析

数据的缺失值主要包括记录的缺失和记录中某个字段信息的缺失,原因两者丢回熬成分析结果的不准确

缺失值产生的原因

有些信息暂时无法获取,或者获取信息的代价太大
1. 有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写或对数据理解错误等一些认为因素而遗漏,也可能由于数据采集设备的故障、存储介质的故障、传输媒体的故障灯非认为原因而丢失。再某些情况下,缺失值并不意味着
2. 属性值不存在。在某些情况下,缺失值并不意味着数据有错误。对一些对象来说,某些属性值是不存在的,如一个未婚者的配偶姓名、一个儿童的固定收入等

缺失值的影响
1. 数据挖掘建模将丢失大量的有用信息
2. 数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握
3. 包含空值的数据会使建模过程陷入混乱,导致不可靠的输出

缺失值的分析
- 使用鉴定单的统计分析,可以得到含有缺失值的树脂字那个的个数,以及每个属性的未缺失数,缺失数与缺失率等
- 总体来说,缺失值的处理分为删除存在缺失值的记录、对可能进行插补和不处理3中情况

3,异常值的分析

异常值的分析是检验数据是否有录入错误以及含有不合常理的数据,护士异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良的影响,重视异常值的出现,分析其产生的原因,常常,成为发现问题进而改进决策的契机

异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点分析

简单统计量分析
- 可以先对变量做一个描述性统计,进而查看那些数据是不合理的。最常用的统计量是最大值和最小值,用来判断这个变量的取值是否超出了合理的范围

3σ原则
- 如果数据服从正太分布,在3σ原则下,异常值被定义为一组测定值中与平均值偏差超过3被标准差的值。在正太分布假设下,距离平均值3σ之外的值出现的概率为p(|x-μ|>3σ)<=0.003,属于极个别的小概率事件,如果不服从正态分布,也可以用远离平均值的多少倍标准差来描述

箱形图分析
- 箱型图提供了是被异常值的标准:异常值通常被定义为小于Q_L-1.5IQR或大于Q_U+1.5IQR的值。Q_L称为下四分位数,表示全部观察值中有四分之一的数据取值比它小;Qu称为上四分位数,表示全部观察值中有四分之一数据取值比它大;IQR称为四分位数间距,是上分位数Qu与下分位数Q_L之差,其间包含了全部观察值的一半
- 箱型图依据实际数据绘制,没有对数据作3任何限制性要求(如服从某种特定分布形式),它只是真实直观的表现数据分布的本来面貌;另一方面,箱型图判断异常值的标准以四分位数和四分位间距为基础,四分位数具有一定的鲁棒性;多达25%的数据可以变得任意远而不会很大的扰动四分位数,所以异常值不能对这个标准施加影响。由此可见,箱型图识别异常值的结果比较客观,在识别异常值有一定的优势。
- 鲁棒性:鲁棒是Robust的音译，也就是健壮和强壮的意思。它是在异常和危险情况下系统生存的关键。比如说，计算机在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该软件的鲁棒性。所谓“鲁棒性”，是指控制系统在一定（结构，大小）的参数下，维持其它某些性能的特性。根据对性能的不同定义，可分为稳定鲁棒性和性能鲁棒性。以的鲁棒性作为目标设计得到的固定控制器称为器。

参数说明:
- count是非空值数,通过len(data)可以知道数据记录为若干条,因此缺失值为1

异常值检测代码:

import pandas as pdcreate_sale = "E:/data/create_sale.xlsx"data = pd.read_excel(create_sale, index_col="时间")import matplotlib.pyplot as pltplt.rcParams["font.sans-serif"] = ["SimHei"]  # 用来显示正常的中文plt.rcParams["axes.unicode_minus"] = Falseplt.figure()  # 建立画像p = data.boxplot()  # 画箱线图,直接使用Dataframe的方法print(p) x = p["fliers"][0].get_xdata() # "filers"即为异常值的标签 y = p["fliers"][0].get_ydata() y.sort() # 从小到大排序,该方法直接改变原对象 # 用annotate添加注释 # 其中有些相近的点,注释你会出现重叠,难以看清,需要一些技巧来控制 for i in range(len(x)): if i > 0: plt.annotate(y[i], xy=(x[i], y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]), y[i])) else: plt.annotate(y[i], xy=(x[i], y[i]), xttext=(x[i]+0.08, y[i])) plt.show()