除了正态分布,还有一种分布叫柯西分布,由数学家奥古斯丁·柯西发现。
柯西分布跟高斯曲线非常相似,但柯西分布用于描述疯狂世界,而高斯曲线却不能。
柯西分布没有期望值,也没有标准差,它带来的是疯狂的世界。
柯西曲线上远离均数的机会绝不罕见而是很多。
柯西曲线尾巴宽的部分远比高斯曲线尾巴宽的部分长。
克里斯·安德森对此称为“长尾”,他以此为题写了《长尾理论》。
他认为,在今天的经济中,商业机会恰恰存在于远离平均水平的地方。
他提出一种策略,建立一个足够大的分销渠道,在这个渠道中人们不要去销售少量流行的商品,
而应该去销售大量不怎么流行的商品。
柯西分布,也称为洛伦兹分布或Breit-Wigner分布。它是描述共振行为的连续分布。
柯西分布是一种特殊情况,它没有均值,标准差,偏度和峰度,因为它们均未定义。
只有位置参数m和比例参数g ,
柯西分布不存在期望,多用于物理学,量子力学,
Z-score 计算公式
Z = (X - μ) / σ
μ 均值
σ 标准差,也称波动率
无产阶级专政 (dictatorship of the proletariat)又称工人阶级专政,是社会主义国家的本质
rolling_mean = close_prices.rolling(window=period).mean()
rolling_std = close_prices.rolling(window=period).std()
z_scores = (close_prices - rolling_mean) / rolling_std
3σ(sigma)原则,也称为三西格玛规则,是统计学中一种用于识别和剔除异常值的方法。
它基于正态分布(高斯分布)的性质,其中大约99.73%的数据点落在距离均值三个标准差(±3σ)的范围内。
这个原则的基本思想是:在正态分布假设下,位于均值3个标准差之外的观测值很可能是异常值。
统计学极简入门
统计学简介
描述性统计
数据分布
区间估计
假设检验
方差分析
相关性分析
t检验、F检验、卡方检验
AB测试的假设检验原理
统计java代码行数
find . -name "*.java"|xargs cat|wc -l
过滤空行
find . -name "*.java"|xargs cat|grep -v ^$|wc -l
钱是给女人看的 ,不是给女人花的
熵增,指的是在一个封闭的系统中,所有事物都在向着无规律、无序和混乱发展,最终“熄灭”。
为了维持系统长时间的运转,通常要外界输入能量,让系统减熵,趋于有序。
生活中,熵增就是生活不由自主地走向混乱的一种趋势。
为了让房间看起来的井井有条,就必须经常性的整理房间;要变得自律,就必须时时拒绝懒散。
但整理房间、自律,是需要耗费能量,耗费精气神,对抗人性,这往往很痛苦。
薛定谔:人活着就是在对抗熵增定律,生命以负熵为生。
java 中 类似 pandas dataframe 的 类库
joinery tablesaw
大数定律 和 中心极限定理
中心极限定理 ,只要随机事件有很多独立的因素共同作用,无论每个因素本身是什么分布,这个随机事件最终都会形成正态分布
大数定理 ,当样本数据无限大时,样本均值趋于总体均值
大数定律揭示从局部不确定到整体的确定性,成为统计推断的重要基石,与中心极限定律被称为统计推断的黄金定律
正态分布有两个参数,即均值μ和标准差σ
均值μ决定正态曲线的中心位置
标准差σ 决定正态曲线的陡峭或扁平程度
σ越小,曲线越陡峭 ;σ越大,曲线越扁平
Pandas 用于数据分析
Pandas 名字源于 术语 panel data(面板数据)和 Python data analysis(Python 数据分析)
plt.subplots() 函数返回fig和ax,分别是Figure对象和Axes对象。
前者代表画布,后者代表画布上的绘图区域,画布和绘图区域是一对多的关系
90分钟学习Python数据分析中三剑客 Matplotlib-NumPy-Pandas
https://www.bilibili.com/video/BV1wN4y1T7K9/
import matplotlib.pyplot as plt
# 2行1列 2个子图
fig, (ax1, ax2) = plt.subplots(2, 1)
plt.plot()
# 1行2列 2个子图
fig, (ax1, ax2) = plt.subplots(1, 2)
plt.plot()
对照组方法,是科学研究中用途极广的方法,有着坚实的统计学理论支撑
产品部一般称为AB Test
风控部门 一般称为 冠军挑战
实名认证 要素验证
二要素:姓名和身份证号码
三要素:姓名、身份证号码、银行卡
四要素:姓名、身份证号码、银行卡、手机预留号码
姓名和身份证号码一般来源于政府部门的身份数据库,银行卡和手机预留号码一般来源于银联数据库。
使用实名认证数据服务时,必须确保其收集的个人信息安全,防止信息泄露、毁损、丢失。
可通过去标识化来保证个人信息的不泄露。
20240509
1311 五号线 六号线
07:15 1311
07:24 永福
08:27 诚业路
第一页
上一页
下一页
最后一页