文章详情|Python数据分析中的统计学基础概念

Python数据分析中的统计学基础概念 所属分类 math 浏览量 1101
统计学是一门研究数据收集、分析和解释的学科，它在数据分析中起着重要的作用
Python数据分析中的重要统计学概念
数据类型、描述统计、概率分布和假设检验



1. 数据类型
1.1 数值型数据
数值型数据是指表示数值或大小的数据类型，包括整数、浮点数和复数等。
在Python中，可以使用NumPy库来处理数值型数据，例如进行数值计算和统计分析。

1.2 类别型数据
类别型数据是指表示类别或标签的数据类型，包括名义变量和顺序变量等。
在Python中，可以使用pandas库来处理类别型数据，例如进行数据清洗和特征编码。

1.3 时间型数据
时间型数据是指表示时间或日期的数据类型，例如年份、月份和具体时间点等。
在Python中，可以使用datetime库来处理时间型数据，例如进行时间序列分析和日期计算。



2. 描述统计
描述统计是对数据集进行总结和描述的统计学方法。
Python提供了丰富的描述统计工具和函数，可以计算数据的中心趋势、离散程度和分布特征等。

2.1 中心趋势
中心趋势是指数据集中心位置的度量，常用的指标包括均值、中位数和众数等。
使用pandas和NumPy库中的函数，可以轻松地计算这些指标。



均值（mean） np.mean() 
中位数（median） 将数据按照大小排序后，位于中间的数值 np.median() 
众数（mode） 数据集中出现次数最多的数值   DataFrame.mode() 或 scipy.stats.mode()


2.2 离散程度
离散程度是指数据集分散程度的度量，常用的指标包括标准差、方差和四分位数范围等。
使用pandas和NumPy库中的函数，可以方便地计算这些指标。


标准差（standard deviation） 数据集各个数据与均值之差的平方和的平均值的平方根  np.std() 
方差（variance）  数据集各个数据与均值之差的平方和的平均值  np.var() 
四分位数范围（interquartile range 数据集上下四分位数之差，表示数据中间50%的变动范围   DataFrame.quantile() 

2.3 分布特征
分布特征是指数据集分布形态的描述，常用的指标包括偏度、峰度和频数统计等。
使用pandas、SciPy和matplotlib库中的函数 


偏度（skewness）：数据分布的偏斜程度   DataFrame.skew() 或 scipy.stats.skew() 
峰度（kurtosis）：数据分布的尖锐程度   DataFrame.kurtosis() 或 scipy.stats.kurtosis() 
频数统计（frequency count） 数据集中各个数值的出现次数统计    DataFrame.value_counts() 



3. 概率分布
概率分布是描述随机变量取值概率的函数，常用的概率分布包括正态分布、二项分布和泊松分布等。
在Python中，可以使用SciPy库来进行概率分布的建模和分析。

3.1 正态分布
正态分布（也称为高斯分布）是最常见的概率分布之一，它表现为钟形曲线。
使用SciPy库中的函数，可以生成正态分布随机数、计算概率密度和累积分布等



生成随机数   scipy.stats.norm.rvs() 
计算概率密度  scipy.stats.norm.pdf()  计算指定取值点的概率密度
计算累积分布   scipy.stats.norm.cdf()  计算指定取值点的累积分布

3.2 二项分布
二项分布是描述重复进行二元试验的概率分布，例如抛硬币的结果。
SciPy库  计算二项分布的概率质量、累积分布和随机采样等


计算概率质量   scipy.stats.binom.pmf() 
计算累积分布   scipy.stats.binom.cdf() 
生成随机数   scipy.stats.binom.rvs() 


3.3 泊松分布
泊松分布是描述单位时间内某事件发生次数的概率分布，例如在单位时间内接到的电话数量。
使用SciPy库中的函数，可以计算泊松分布的概率质量、累积分布和随机采样等。


计算概率质量  scipy.stats.poisson.pmf() 
计算累积分布  scipy.stats.poisson.cdf() 
生成随机数    scipy.stats.poisson.rvs() 



4. 假设检验
假设检验是用于对数据集进行推断性统计分析的方法，例如比较样本均值是否显著不同。
可以使用SciPy库来进行假设检验，帮助得出具有统计显著性的结论。

4.1 单样本假设检验
单样本假设检验用于检验单个样本的参数与已知值之间是否存在显著差异，常见的假设检验包括单样本t检验和单样本Z检验。

单样本t检验  scipy.stats.ttest_1samp() 
单样本Z检验  scipy.stats.zscore() 

4.2 双样本假设检验
双样本假设检验用于检验两个独立样本的参数是否存在显著差异，常见的假设检验包括独立样本t检验和Mann-Whitney U检验。

独立样本t检验 scipy.stats.ttest_ind() 
Mann-Whitney U检验  scipy.stats.mannwhitneyu() 

4.3 相关性检验
相关性检验用于检验两个变量之间是否存在显著线性相关关系，
常见的假设检验包括Pearson相关系数检验和Spearman秩相关系数检验
Pearson相关系数检验 scipy.stats.pearsonr() 
Spearman秩相关系数检验  scipy.stats.spearmanr() 



概率累计分布函数 CDF（cumulative distribution function）
概率密度函数 PDF(probability density function）
统计学术语

apache math库计算 z值表

正态分布简介

数学公式中的希腊字母

温和世界和疯狂世界

zscore因子计算及策略回测