R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第1张

全文链接:/?p=30914

我们正和一位朋友讨论如何在R软件中用GLM模型处理全国的气候数据。本文获取了全国的2021年全国的气候数据点击文末“阅读原文”获取完整代码数据

采样时间:2021年1月1号~2021年12月31号 

采样地点:全国各地。

本次调查搜集了2021年全国不同地区的风向、降雨量、风速、风速变化、最大风速、最大降雨量、闪电概率等数据。并对不同变量之间的相关性进行了调查,对国家数据预测的错误率进行了GLM模型拟合。

读取数据

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第2张

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第3张

library(car)
library(MuMIn)
head(data)

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第4张

读取因变量

numberFaults=data$numblts

head(data1)

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第5张

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第6张

相关视频

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第7张
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第7张

相关分析

调查的出的各指标数据用R软件进行处理并且用箱图进行对比显示。

部分指标的箱线图

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第9张

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第10张

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第11张

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第12张

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第13张

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第14张

查看各变量之间的相关系数

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第15张

有显著的相关关系。从变量相关关系图和矩阵,可以看到temperatureMin和temperatureMax,windChillMin,windChillMax,以及gustSpeed和windSpeed之间,rainfall和changeInRainfall,以及lightningRisk和lightningCategory之间都有教明显的线性相关关系。yearDay和windChill之间也有一定的相关关系。

glm 线性回归模型

summary(glm.po)

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第16张

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第17张


点击标题查阅往期内容

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第18张

数据分享|R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第19张

左右滑动查看更多

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第19张

01

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第21张

02

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第22张

03

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第23张

04

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第24张

检验是否存在多重共线性问题

kappa(cor(data[,c(1:15,17:20)]), exact=T)
## [1] 3.020456e+18

判断多重共线性变量

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第25张

进一步模型优化

step(glm.po2)

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第26张

summary(glm.step)

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第27张

vif

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第28张

从模型中变量的VIF值来看,大多数变量之间不存在较强的多重共线性关系。从残差拟合图来看,大部分样本拟合值分布在0周围,说明拟合结果较理想。981,2331和524号样本可能为异常点。从正态分布qq图来看,大部分点分布在图中直线附近。说明样本点服从正态分布。同样,拟合值的标准残差也分布在红线周围,说明拟合效果较好。同样,大部分样本的cook’ distance距离在正常范围内,392,624,622号样本的cook’ distance较大,可能会对模型产生较大的影响。

全子集回归来选出最优的模型

子集回归,即基于全模型获得可能的模型子集,并根据AIC值等对子集排序以从中获取最优子集。

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第29张

重新拟合模型

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第30张

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第31张

优化模型

avg(ms1, subset = delta < 10,fit=T,rank = "AIC")

残差图

plot(pre-numberFaults)

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第32张

计算R-squre值,查看模型拟合情况

Rsquare=ssr/sst

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第33张

从逻辑回归结果来看,模型中部分自变量对因变量的影响较为明显,达到了0.01的显著性水平,具有一定的理论意义。然而从AIC的值来看,达到了4024.881,数值较大,说明模型的拟合度较差,有进一步改进的空间。一般认为计算条件数kappa(X),k<100,说明共线性程度小,如果1001000,存在严重的多重共线性。从结果来看,kappa值远远大于1000,因此判断该模型存在严重的共线性问题,即线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。changintemp,changinrainfall,windspeedmin,lightningcategory ,rainfallMax之间存在较高的相关关系会对模型的拟合失真并且难以用以估计和预测,因此,删掉这些变量后重新对模型进行拟合。删除部分共线性程度高的变量后可以看到模型的AIC降低了,因此,模型的拟合程度提高了。大部分样本的cook’ distance距离在正常范围内,392,624,622号样本的cook’ distance较大,可能会对模型产生较大的影响。


R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第34张


R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据,第35张
DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
白度搜_经验知识百科全书 » R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情