文章详情|Python统计学极简入门笔记 02 描述性统计

Python统计学极简入门笔记 02 描述性统计 所属分类 math 浏览量 713

描述一组数据 
集中趋势、离散趋势、分布形状
集中趋势 平均数 中位数 众数 
离散趋势 分位数 方差 标准差 变异系数 
分布形状 偏度 峰度 

算术平均值 
import numpy as np
data =  [2,23,4,17,12,12,13,16]
np.mean(data)

几何平均  n个数乘积的n次方根
from scipy import stats as sts
sts.gmean(data)

调和平均 n个数的倒数的算术平均数的倒数
sts.hmean(data)

算数平均值 ≥ 几何平均值 ≥ 调和平均值

数值类数据的均值一般用算数平均值，比例型数据的均值一般用几何平均值，平均速度一般用调和平均数

中位数  顺序排列位于中间位置的数
np.median(data)

众数  一组数据中出现次数最多的值
sts.mode(data)

分位数
四分位数用3个分位数，将数据等分成4个部分。这3个四分位数，分别位于这组数据排序后的25%、50%和75%的位置上
75%分位数与25%分位数的差叫做四分位距


print(sts.scoreatpercentile(data,25)) #25分位数
print(sts.scoreatpercentile(data,75)) #75分位数

用四分位数绘制的箱线图
import seaborn as sns
sns.boxplot(data=data)

箱线图可以很直观地看到：数据的最大值、最小值、以及大部分数据集中在什么区间。


极差
极差又称范围误差或全距，是指一组数据中最大值与最小值的差
np.ptp(data)

四分位距是上四分位数与下四分位数之差，一般用 IQR 表示
sts.scoreatpercentile(data,75) - sts.scoreatpercentile(data,25)


方差  与均值差的平方的和
sts.tvar(data,ddof = 1)
ddof=1时,分母为n-1;ddof=0时,分母为n

标准差
标准差为方差的开方
总体标准差 σ
样本标准差 S
sts.tstd(data,ddof = 1)
样本标准差 ddof=1,分母为 n-1 
总体标准差 ddof=0 ,分母为 n

变异系数
变异系数又称为离散系数，是一组数据中的极差、四分位差或标准差等离散指标与算术平均数的比率

准差变异系数
sts.tstd(data)/sts.tmean(data)


偏度
偏度系数是对分布偏斜程度的测度，通常用SK表示。
偏度衡量随机变量概率分布的不对称性，是相对于平均值不对称程度的度量。

当偏度系数为正值时，表示正偏离差数值较大，可以判断为正偏态或右偏态；
当偏度系数为负值时，表示负偏离差数值较大，可以判断为负偏态或左偏态。
偏度系数的绝对值越大，表示偏斜的程度就越大。
sts.skew(data,bias=False)) 
bias=False  总体偏度
bias=True   样本偏度


峰度
峰度描述的是分布集中趋势高峰的形态，通常与标准正态分布相比较。
在归化到同一方差时，若分布的形状比标准正态分布更“瘦”、更“高”，则称为尖峰分布；
若比标准正态分布更“矮”、更“胖”，则称为平峰分布。
峰度系数是对分布峰度的测度，通常用K表示：
由于标准正态分布的峰度系数为0，所以当峰度系数大于0时为尖峰分布，当峰度系数小于0时为平峰分布。

sts.kurtosis(data,bias=False)
bias=False 总体峰度
bias=True  样本峰度

温和世界和疯狂世界

zscore因子计算及策略回测

Python统计学极简入门笔记 01 统计学简介

Python统计学极简入门笔记 03 数据分布

jupyter 使用技巧

matplotlib 技巧