正态分布(Normal Distribution)

正态分布(Normal Distribution)

1. 正态分布的定义

正态分布(Normal Distribution),又称为高斯分布(Gaussian Distribution) ,是一种在统计学和概率论中最重要的连续概率分布。它广泛应用于自然科学、社会科学、工程、金融等领域。

正态分布的概率密度函数(PDF)如下:

\[f(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}

\]

其中:

\(x\):随机变量,表示数据点

\(\mu\):均值(mean),即数据的中心

\(\sigma^2\):方差(variance),表示数据的离散程度

\(\sigma\)(标准差,standard deviation):\(\sigma = \sqrt{\sigma^2}\)

2. 正态分布的参数解释

在正态分布中,有两个重要的参数:均值 \(\mu\) 和 方差 \(\sigma^2\)。

(1)均值 \(\mu\)

决定正态分布的中心位置。

直观来说,它表示数据的平均值,即数据的集中趋势。

若 \(\mu\) 变大,整个分布会向右平移;若 \(\mu\) 变小,分布会向左平移。

(2)方差 \(\sigma ^2\) 与标准差 $\sigma $

决定正态分布的宽度(离散程度)。

方差越大(即标准差越大),数据的波动性越大,分布曲线越“扁平”;方差越小,数据越集中,分布曲线越“陡峭”。

标准差的影响示意:

当 \(\sigma\) 较小时,数据点更集中于均值附近,分布更窄。

当 \(\sigma\) 较大时,数据点更分散,分布更宽。

3. 正态分布的性质

正态分布有以下重要的数学性质:

(1)对称性

正态分布是关于均值 \(\mu\) 对称的,即:

\[P(X \leq \mu - c) = P(X \geq \mu + c)

\]

这意味着数据左右分布是均匀的。

(2)68-95-99.7 经验法则

对于任意正态分布:

约 68% 的数据落在 \(\mu ± \sigma\) 区间内。

约 95% 的数据落在 \(\mu ± 2\sigma\) 区间内。

约 99.7% 的数据落在 \(\mu ± 3\sigma\) 区间内。

这说明大部分数据点会集中在均值附近,离均值越远的点出现的概率越小。

(3)标准正态分布

当正态分布的均值 μ=0,标准差 σ=1 时,我们称其为标准正态分布(Standard Normal Distribution) ,记作:

\[Z \sim N(0,1)

\]

标准正态分布的概率密度函数为:

\[\phi(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}

\]

其中,\(z = \frac{x - \mu}{\sigma}\) 为标准化变量。

标准正态分布的分布曲线是对称的“钟形曲线”,其均值为 0,标准差为 1,广泛用于统计推断,如计算 z-score(标准分数)。

4. 正态分布的计算

在实际应用中,我们经常需要计算某个数值 x 在正态分布中的概率。通常有以下两种方法:

(1)直接计算概率密度

使用公式:

\[f(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}

\]

(2)标准化计算

由于直接计算积分较难,我们可以使用标准正态分布表:

先计算 标准化变量(Z-score):

\[z = \frac{x - \mu}{\sigma}

\]

然后查询标准正态分布表,获取累积分布函数(CDF)值,即:

\[P(X \leq x) = P(Z \leq z)

\]

对于非标准正态分布,可以通过变换 Z 来计算概率。

5. 应用案例

假设我们测量一批产品的重量,重量的分布服从正态分布,均值为50克,标准差为5克。我们希望可视化这些产品的重量分布,并计算重量在45到55克范围内的概率。

import numpy as np

import matplotlib.pyplot as plt

plt.rcParams['font.size'] = 14

plt.rcParams['font.sans-serif'] = ['Microsoft Yahei']

from scipy.stats import norm

#参数设置

mu = 50 # 均值

sigma = 5 # 标准差

#生成正态分布数据

X = np.linspace(mu - 4 * sigma, mu + 4 * sigma, 1000)

y = norm.pdf(X, mu, sigma)

#可视化正态分布

plt.figure(figsize=(8, 6))

plt.plot(X, y)

plt.title('正态分布曲线')

plt.xlabel('重量(克)')

plt.ylabel('概率密度')

plt.show()

相关推荐

整理光头强吃过最多的食物,鸡蛋面284次,最后一个几乎每天都吃
如何撤销朋友圈的消息
365scores下载

如何撤销朋友圈的消息

10-30 👁️‍🗨️ 1797
如何安装
beat365唯一的网址

如何安装

09-06 👁️‍🗨️ 1573
古代为何把文人称为“骚客”?“骚”字是什么意思?别理解错
李晨个人资料以及家庭背景曝光
bat365入口

李晨个人资料以及家庭背景曝光

09-08 👁️‍🗨️ 1295
南方基金·恽雷:一位管理规模才11亿的明日之星
bat365入口

南方基金·恽雷:一位管理规模才11亿的明日之星

06-30 👁️‍🗨️ 6211
空气刘海怎么修剪?稀薄瘦脸空气刘海剪法
bat365入口

空气刘海怎么修剪?稀薄瘦脸空气刘海剪法

11-05 👁️‍🗨️ 4534
java开发用amd处理器_谈谈AMD CPU购机心得 与 写代码的感受
dnf幽魂套刷哪个图
365scores下载

dnf幽魂套刷哪个图

09-25 👁️‍🗨️ 6825