这篇文章将为大家详细讲解有关如何进行R语言中的缺失值分析,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。
成都创新互联2013年至今,先为尼勒克等服务建站,尼勒克等地企业,进行企业商务咨询服务。为尼勒克企业网站制作PC+手机+微官网三网同步一站式服务解决您的所有建站问题。
mice函数中的md.pattern()函数可生成一个以矩阵货数据框形式展示缺失值模式的表格,将函数运用到sleep数据集中:
> library(mice)
> data(sleep,package="VIM")
> md.pattern(sleep)
BodyWgt BrainWgt Pred Exp Danger Sleep Span Gest Dream NonD 运行结果可知,0表示变量列中有缺失值,1表示变量列中缺失值,第一行表示无缺失值,第二行表示除了span之外无缺失值,第一列表示各个缺失值模式实例个数,最后一列表示各模式中有缺失值的变量个数。可看到,sleep数据集有42例没有缺失值,仅2个实例缺失span,9个实例同时缺失NanD和Dream,数据集总共包含42x0+2x1+.....1x3=38个缺失值
aggr()函数不仅仅绘制每个变量的缺失值数,而且绘制每个变量组合的缺失值数,代码:
>library(VIM)
> aggr(sleep,prop=FALSE,numbers=TRUE)
运行结果:
左边的图可知缺失值数量,NonD有最大的缺失值数14个,右边的图显示有2个哺乳动物缺失NonD、Dream、Sleep评分。42个动物没有缺失值。
> aggr(sleep, prop = TRUE, numbers = TRUE)#生成相同图形,但是用比例取代计数, numbers = FALSE默认时删去数值型标签。
> matrixplot(sleep)
运行结果如下:
数值型的数量被转换到[0,1]区间,利用灰度表示,颜色浅表示数值小,深色表示数值大,红色表示缺失值。
>marginplot(sleep[c("Gest","Dream")],pch=c(20),col=c("darkgray","red","blue"))#做梦时间和哺乳动物妊娠时间的关系,pch和col是绘制图形的符号和颜色
运行结果如下:图形的主体是Gest和Dream(两个变量数据都完整)的散点图。左边的箱线图展示的是 (深灰色 )与不包括 ( 红色 )Gest 的Dream变量分布。注意,在灰度图上红色是更深的阴影。 四个红点代表缺失了Gest得分的Dream值。在底部边界上,可以看到,妊娠期和做梦时长呈现负相关,缺失妊娠期数据时动物的做梦时长一般更长。两个变量均有缺失值的观测个数在两边界交叉处 (左下角 )蓝色标出。
关于如何进行R语言中的缺失值分析就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。
文章题目:如何进行R语言中的缺失值分析
文章分享:http://scgulin.cn/article/ggdppo.html