博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据探索之数据质量分析
阅读量:6321 次
发布时间:2019-06-22

本文共 947 字,大约阅读时间需要 3 分钟。

数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般指的是不符合要求,以及不能直接进行相应分析的数据。数据的质量分析侧重于脏数据的发现,而数据清洗则是对这些脏数据的修正或者丢弃。一般情况下,数据的质量分析与数据清洗是相伴而行的,在分析出脏数据的时候伴随着数据的清洗。

常见的脏数据包括如下:

1.缺失值

缺失值产生的一般由如下原因造成:

(1) 有些信息无法获取;

(2) 有些信息出现遗漏;

(3) 属性值不存在,有些情况下,缺失值并不意味着数据有错误。对一些对象来说某些属性值是不存在的,比如未结婚的配偶姓名。

缺失值的影响:

(1) 数据挖掘建模将丢失大量有用数据;

(2) 数据挖掘模型所表现出来的不确定性更加显著,模型中蕴含的规律更难把我;

(3) 包含空值的数据会使得建模过程陷入混乱,导致不可靠的输出。

如何发现缺失值

那如何发现缺失值呢?pandas可以帮助我们轻松的完成任务。pandas使用浮点值NaN(Not a Number)表示浮点和非浮点数组中的缺失值,如下所示:

另外,Python内置的None值也会被当做NA处理:

 

2.异常值

异常值是指数据是否有录入错误以及含有不合理的数据,这些是通常是样本中的个别值,其数值明显偏离其余的观测值,异常值也称之为离群点,异常值的分析也称为离群点分析。

常用的异常值分析方法如下:

(1) 简单统计量分析

对数据进行描述下统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,用来判断这个变量的取值是否超出了合理的范围。例如客户年龄最大值为200岁,则改数据存在异常。

pandas拥有一组常用的数学和统计方法可以实现简单的计量分析。

(2) 3σ原则

 

(3) 箱型图分析

 

3.不一致的值

数据不一致是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘,可能会产生与实际相悖的挖掘结果。

不一致的数据产生主要发生在数据集成过程中,这可能是由于被挖掘的数据是来自不同的数据源、对于重复性存放的数据未能进行一致性更新造成。例如,两张表中都存储了用户的电话号码,但在用户的号码发生改变时只更新了一张表中的数据,那么两张表中就有了不一致的数据。

4.重复数据以及含有特殊符号的数据(如#、¥、$、*等)的数据

你可能感兴趣的文章
下一代 Hadoop YARN :相比于MRv1,YARN的优势
查看>>
阿里巴巴离职DBA 35岁总结的职业生涯
查看>>
LOT NUMBER / PO / RECEIPT NO Relation.
查看>>
Fedora9常用网络调试
查看>>
Matlab绘图方法汇总
查看>>
关于操作系统的进程调度问题
查看>>
POJ 1243 One Person
查看>>
Bash: about .bashrc, .bash_profile, .profile, /etc/profile, etc/bash.bashrc and others
查看>>
hibernate 映射实例 学生 课程 成绩
查看>>
【CAS单点登录视频教程】 第04集 -- tomcat下配置https环境
查看>>
自适应网页布局经验
查看>>
Ubuntu apache 禁止目录浏览
查看>>
常用脚本--归档ERRORLOG
查看>>
js网页倒计时精确到秒级
查看>>
常用CSS缩写语法总结
查看>>
TDD:什么是桩(stub)和模拟(mock)?
查看>>
C# 模拟POST提交文件
查看>>
PAT 解题报告 1004. Counting Leaves (30)
查看>>
Android开发之蓝牙 --修改本机蓝牙设备的可见性,并扫描周围可用的蓝牙设备
查看>>
[Head First设计模式]生活中学设计模式——外观模式
查看>>