正态分布是什么,第1张

正态分布是一种概率分布。正态分布是两个参数μ和σ2的连续随机变量的分布。第一个参数μ是服从正态分布的随机变量的均值,第二个参数σ2是这个随机变量的方差,所以正态分布表示为N(μ,σ2)。

正态分布是一种概率分布。正态分布是两个参数μ和σ2的连续随机变量的分布。第一个参数μ是服从正态分布的随机变量的均值,第二个参数σ2是这个随机变量的方差,所以正态分布表示为N(μ,σ2)。服从正态分布的随机变量的概率规律是取值于μ附近的概率较高,取值于远离μ的概率较小;σ越小,μ附近越集中,σ越大,越分散。正态分布的密度函数的特征是其最大值在μ处,其值在正(负)无穷大处,拐点在μ σ处。它的形状是中间高,两边低,图像是位于X轴上方的钟形曲线。当μ = 0,σ 2 = 1时,称为标准正态分布,记录为n (0,1)。当μ维随机向量具有相似的概率规律时,就说随机向量服从多维正态分布。多元正态分布具有良好的性质。比如多元正态分布的边缘分布仍然是正态分布,任意线性变换得到的随机向量仍然是多维正态分布,尤其是其线性组合是一元正态分布。

正态分布是什么,正态分布是什么,第2张

正态分布的发展

正态分布是最重要的概率分布。正态分布的概念最早是由德国数学家和天文学家莫伊弗于1733年提出的,但它也被称为高斯分布,因为德国数学家高斯首先将其应用于天文学家。高斯的作品对后世影响很大。他同时给正态分布起了个“高斯分布”的名字。后世之所以给他最小二乘法的发明权,也是因为这项工作。高斯是一位伟大的数学家,他的重要贡献数不胜数。但今天的德国高斯头10马克钞票,印的是正态分布的密度曲线。这传达了一个思想:在高斯所有的科学贡献中,对人类文明影响最大的就是这一个。在这个发现之初,也许人们只能从其理论的简单化来评价其优越性,其充分的影响力并不能完全看到。这要在20世纪正常小样本理论充分发展之后。皮埃尔·西蒙·拉普拉斯很快了解了高斯的工作,并立即将其与他发现的中心极限定理联系起来。为此,他对即将发表的一篇文章(发表于1810年)进行了补充,指出如果误差可以看作是许多量的叠加,根据他的中心极限定理,误差应该具有高斯分布。这是历史上第一次提到所谓的“元错误理论”——错误是由各种原因产生的大量元错误叠加而成的。后来,在1837年,G .哈根在一篇论文中正式提出了这一理论。

他提出的形式其实有相当大的局限性:哈根把错误想象成大量独立同分布的“元错误”之和,每个元错误取两个值,其概率为1/2。由此,根据De Mofo的中心极限定理,立即得出误差服从正态分布(近似)的结论。皮埃尔·西蒙·拉普拉斯指出的这一点意义重大,因为他对正常的误差理论作出了更自然、合理和令人信服的解释。因为高斯的说法有点循环论证的味道:因为算术平均优秀,推导误差必须服从正态分布;另一方面,算术平均和最小二乘估计的优越性是从后一个结论推导出来的,所以其中一个(算术平均的优越性和误差的正态性)必须作为出发点。然而,算术平均值没有理由自行建立。将其作为理论中预设的出发点,最终会有其不足之处。拉普拉斯的理论把这个断裂的环节连接起来,使之成为一个和谐的整体,意义重大。

正态分布的主要特征

1.浓度:正态曲线的峰值位于中心,即均值所在的位置。

2.对称:法向曲线以均值为中心,左右对称,曲线两端与横轴永不相交。

3.均匀可变性:正态曲线从均值所在的地方开始,分别向左右两侧逐渐均匀递减。

4.正态分布有两个参数,即均值μ和标准差σ,可以写成N(μ,σ):均值μ决定正态曲线的中心位置;标准差σ决定了正常曲线的陡峭程度或平坦程度。σ越小,曲线越陡。σ越大,曲线越平坦。

5.u变换:为了描述和应用的方便,常把正态变量转换成数据。

正态分布的应用

1.估计正态分布数据的频率分布

例1。1993年,在某地方抽样调查了100名18岁男大学生的身高(cm ),其均值=172.70cm,标准差s=4.01cm,

①估计该地区身高小于168cm的18岁男大学生比例;

②计算18岁男大学生在,,范围内的实际百分比,并与理论百分比进行比较。

本例中,μ和σ未知,但样本含量n较大。根据公式,分别用样本均值和标准差S代替μ和σ,得到U的值,为(168-172.70)/4.01 =-1.17。在附表中查找标准正态曲线下的区域,在表格左侧找到-1.1,在表格顶部找到0.07。两者的交集为0.1210=12.10%。18岁男大学生身高不足168cm,约占总数的12.10%。其他计算结果见表-1。

表-1:1100名18岁男大学生身高的实际和理论分布

2.制定医学参考值范围:也称医学正常值范围。指的是所谓“正常人”的解剖、生理生化指标的波动范围。在制定正常值范围时,首先要确定一群样本含量足够大的“正常人”。所谓“正常人”并不是指“健康人”,而是指排除影响所研究指标的疾病及相关因素的同质人群;其次,根据研究目的和应用要求,选择合适的边界值,如80%、90%、95%和99%,常用的是95%;根据指标的实际使用情况,应确定单侧或双侧边界值。如果白细胞计数过高或过低,确定双侧边界值是异常的。如果肝功能中转氨酶过高,确定单侧上界是不正常的。如果肺活量过低,确定单侧下边界是不正常的。此外,应根据数据的分布特点,选择合适的计算方法。常用的方法有:

(1)正态分布法:适用于正态分布或近似正态分布的数据。

双边边界值:单边上边界:,或单边下边界:

(2)对数正态分布法:适用于对数正态分布数据。

双边边界值:;单边上限:,或单边下限:。

常用的u值可根据要求从表-2中找到。

(3)百分位数法:常用于偏斜分布数据和一端或两端没有精确值的数据。

双边边界值:P2.5和P 97.5单边上限:P95,或者单边下限:P5。

表2:常用单位值表

3.正态分布是很多统计方法的理论基础:比如T分布、F分布、x2分布都是在正态分布的基础上推导出来的,U检验也是基于正态分布的。另外,T分布、二项分布、泊松分布的极限都是正态分布,在一定条件下可以按照正态分布原理处理。

数据正态分布检验的Q-Q图

观察一个属性的一组数据是否符合正态分布有两种方法(目前我知道这两种方法,这两种方法只是目测,并不是定量的正态分布检验):

1.在SPSS(社会科学统计软件包,即“社会科学统计软件包”)中,基本统计分析函数中的频率统计函数有一个变量的每个观测值的频率直方图,可以选择画一条正态曲线。具体如下:分析& # 8212;–描述性统计& # 8212;–频率,打开频率统计对话框,选择统计中的各种描述性统计,如均值、方差、分位数、峰度、标准差等。在图表中,您可以选择显示的图形类型,其中直方图是直方图,您可以选择是否绘制这组数据的正态曲线,以便我们可以直观地观察这组数据是否大致符合正态分布。如下图:

从上图可以看出,这组数据基本符合正态分布。

2.正态分布的q-q图:在spss中基本统计分析函数的探索性分析中,我们可以通过观察数据的Q-Q图来判断数据是否服从正态分布。

具体步骤如下:分析& # 8212;–描述性统计& # 8212;–打开对话框,选择带有测试的图和正态图,绘制这组数据的q-q图。图的横坐标是变化的观测值,纵坐标是分位数。如果这组数据服从正态分布,那么图中的点应该接近图中的直线。

纵坐标是分位数,根据分布函数公式F(x)=i/n+1得到。I是对一组数字从小到大排序后的ith数据的位置,n是样本容量。如果阵列服从正态分布,则其q-q图应该与理论q-q图(即图中的直线)基本一致。对于理论标准正态分布,其q-q图为y=x直线。非标准正态分布的斜率是样本的标准差,截距是样本的均值。

如下图:

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
白度搜_经验知识百科全书 » 正态分布是什么

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情