首页

Wasserstein距离,也称为Earth Mover's Distance(EMD,推土机距离),
是衡量两个概率分布之间差异的一种方法。
它在机器学习、图像处理和最优运输理论中有广泛应用。
Wasserstein距离直观上可以理解为:
将一个分布的形状变成另一个分布所需的最小"工作量",其中"工作量"定义为移动的土方量乘以移动距离。
A. PSI (Population Stability Index)
< 0.1: 分布稳定,变化不大
0.1-0.25: 中等变化,需要关注
0.25: 显著变化,可能需要模型调整
B. KS (Kolmogorov-Smirnov)
< 0.1: 分布相似
0.1-0.2: 有一定差异
0.2: 显著差异
C. CSI (Characteristic Score of Instability)
综合指标,值越大表示特征变化越大
可根据业务场景设定阈值
CSI (Characteristic Score of Instability) 
是一种用于评估PMML模型中样本特征分布稳定性的指标。
它可以监控模型输入特征的变化情况,从而评估模型性能可能受到的影响。
市场非理性的时间,往往超过你的忍耐程度
"i.e." 是拉丁语短语 "id est" 的缩写,
意思是 "that is"(即、也就是说),用于进一步解释或澄清前面的陈述。
"i.e." 用于 精确解释(相当于 "in other words")。
"e.g."(拉丁语 "exempli gratia")表示 举例(相当于 "for example")
Gets the independent (ie. input) fields of a Model from its MiningSchema.
She prefers organic produce, i.e., fruits and vegetables grown without pesticides.
You should eat more leafy greens (e.g., spinach, kale, and lettuce).
你如果能在股市熬10年,你应能不断赚到钱;
你如果熬了20年,你的经验将极有借鉴的价值;
你如果熬了30年,那么你退休的时候,定然是极其富有的人。
只有在你成为专家之后,你才可能不断地从股市赚到钱并将它留下来。
Python设计哲学:简单、明确、优雅
Life is short, you need Python
人生苦短,我用Python
1991年2月,Python之父吉多·范罗苏姆(Guido Van Rossum)发布Python的第一个版本
《Python极简讲义:一本书入门数据分析与机器学习》
计算 PSI(群体稳定性指标) 和 KS(Kolmogorov-Smirnov统计量) 时,
基准数据(Baseline Data) 和 实际数据(Current Data) 的样本数 不需要严格一致,
PSI 计算的是 分布比例的变化,而不是绝对数量;
KS 计算的是 累计分布函数(CDF)的最大差距,与样本量无关;

第一页 上一页 下一页 最后一页