Python统计学极简入门笔记 02 描述性统计
所属分类 math
浏览量 167
描述一组数据
集中趋势、离散趋势、分布形状
集中趋势 平均数 中位数 众数
离散趋势 分位数 方差 标准差 变异系数
分布形状 偏度 峰度
算术平均值
import numpy as np
data = [2,23,4,17,12,12,13,16]
np.mean(data)
几何平均 n个数乘积的n次方根
from scipy import stats as sts
sts.gmean(data)
调和平均 n个数的倒数的算术平均数的倒数
sts.hmean(data)
算数平均值 ≥ 几何平均值 ≥ 调和平均值
数值类数据的均值一般用算数平均值,比例型数据的均值一般用几何平均值,平均速度一般用调和平均数
中位数 顺序排列位于中间位置的数
np.median(data)
众数 一组数据中出现次数最多的值
sts.mode(data)
分位数
四分位数用3个分位数,将数据等分成4个部分。这3个四分位数,分别位于这组数据排序后的25%、50%和75%的位置上
75%分位数与25%分位数的差叫做四分位距
print(sts.scoreatpercentile(data,25)) #25分位数
print(sts.scoreatpercentile(data,75)) #75分位数
用四分位数绘制的箱线图
import seaborn as sns
sns.boxplot(data=data)
箱线图可以很直观地看到:数据的最大值、最小值、以及大部分数据集中在什么区间。
极差
极差又称范围误差或全距,是指一组数据中最大值与最小值的差
np.ptp(data)
四分位距是上四分位数与下四分位数之差,一般用 IQR 表示
sts.scoreatpercentile(data,75) - sts.scoreatpercentile(data,25)
方差 与均值差的平方的和
sts.tvar(data,ddof = 1)
ddof=1时,分母为n-1;ddof=0时,分母为n
标准差
标准差为方差的开方
总体标准差 σ
样本标准差 S
sts.tstd(data,ddof = 1)
样本标准差 ddof=1,分母为 n-1
总体标准差 ddof=0 ,分母为 n
变异系数
变异系数又称为离散系数,是一组数据中的极差、四分位差或标准差等离散指标与算术平均数的比率
准差变异系数
sts.tstd(data)/sts.tmean(data)
偏度
偏度系数是对分布偏斜程度的测度,通常用SK表示。
偏度衡量随机变量概率分布的不对称性,是相对于平均值不对称程度的度量。
当偏度系数为正值时,表示正偏离差数值较大,可以判断为正偏态或右偏态;
当偏度系数为负值时,表示负偏离差数值较大,可以判断为负偏态或左偏态。
偏度系数的绝对值越大,表示偏斜的程度就越大。
sts.skew(data,bias=False))
bias=False 总体偏度
bias=True 样本偏度
峰度
峰度描述的是分布集中趋势高峰的形态,通常与标准正态分布相比较。
在归化到同一方差时,若分布的形状比标准正态分布更“瘦”、更“高”,则称为尖峰分布;
若比标准正态分布更“矮”、更“胖”,则称为平峰分布。
峰度系数是对分布峰度的测度,通常用K表示:
由于标准正态分布的峰度系数为0,所以当峰度系数大于0时为尖峰分布,当峰度系数小于0时为平峰分布。
sts.kurtosis(data,bias=False)
bias=False 总体峰度
bias=True 样本峰度
上一篇
下一篇
温和世界 和 疯狂世界
zscore因子计算及策略回测
Python统计学极简入门笔记 01 统计学简介
Python统计学极简入门笔记 03 数据分布
jupyter 使用 技巧
matplotlib 技巧