1. 标准差
标准差(Standard Deviation)是统计学中最常用的离散程度测量指标,它衡量数据点分散于均值周围的程度。
定义与公式
标准差通常用符号 σ\sigmaσ (sigma) 表示,其数学公式为:
σ=1N∑i=1N(xi−μ)2\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2}σ=N1i=1∑N(xi−μ)2
其中:
σ\sigmaσ 是标准差NNN 是数据点的总数xix_ixi 是第 iii 个数据点的值μ\muμ 是数据集的均值(算术平均数)∑\sum∑ 表示求和
计算步骤
计算数据集的均值 μ=1N∑i=1Nxi\mu = \frac{1}{N}\sum_{i=1}^{N}x_iμ=N1∑i=1Nxi计算每个数据点与均值的差值 (xi−μ)(x_i - \mu)(xi−μ)计算这些差值的平方 (xi−μ)2(x_i - \mu)^2(xi−μ)2计算这些平方值的平均值 1N∑i=1N(xi−μ)2\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2N1∑i=1N(xi−μ)2计算这个平均值的平方根得到标准差
样本标准差与总体标准差
在实际应用中,我们常区分两种标准差:
总体标准差(适用于拥有完整数据集): σ=1N∑i=1N(xi−μ)2\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2}σ=N1i=1∑N(xi−μ)2
样本标准差(从总体中抽取样本估计): s=1n−1∑i=1n(xi−xˉ)2s = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2}s=n−11i=1∑n(xi−xˉ)2
这里使用 n−1n-1n−1 作为分母(贝塞尔校正),是为了得到总体标准差的无偏估计。
标准差的意义
变异性度量:较大的标准差表示数据分散程度大,较小的标准差表示数据集中于均值附近。
概率分布特性:在正态分布中:
约68%的数据落在均值±1个标准差范围内约95%的数据落在均值±2个标准差范围内约99.7%的数据落在均值±3个标准差范围内
数据质量指标:标准差可用于评估测量的精确度和数据的一致性。
异常值检测:通常,偏离均值超过3个标准差的数据点被视为潜在异常值。
标准差的应用示例
假设有学生成绩集合 [70, 75, 80, 85, 90]:
计算均值:μ=70+75+80+85+905=80\mu = \frac{70+75+80+85+90}{5} = 80μ=570+75+80+85+90=80
计算每个数据点与均值的差值并平方:
(70−80)2=100(70-80)^2 = 100(70−80)2=100(75−80)2=25(75-80)^2 = 25(75−80)2=25(80−80)2=0(80-80)^2 = 0(80−80)2=0(85−80)2=25(85-80)^2 = 25(85−80)2=25(90−80)2=100(90-80)^2 = 100(90−80)2=100
计算这些平方值的平均值: 100+25+0+25+1005=2505=50\frac{100+25+0+25+100}{5} = \frac{250}{5} = 505100+25+0+25+100=5250=50
计算平方根得到标准差: σ=50=7.07\sigma = \sqrt{50} = 7.07σ=50=7.07
这表示成绩的平均偏离程度约为7.07分。
标准差与其他离散度量的比较
方差:标准差的平方,单位是原始数据单位的平方平均绝对偏差:使用绝对值而非平方,计算简单但数学性质较差四分位距:对异常值更不敏感,但信息量较少变异系数:标准差除以均值,适用于不同单位数据的比较
标准差因其数学特性好且易于解释,成为最常用的离散程度测量工具。
Copyright © 2022 摩洛哥世界杯_直播世界杯决赛 - dgaida.com All Rights Reserved.