首页  

机器学习一般流程     所属分类 privacy-compute 浏览量 90
1. 数据导入及预处理  数据清洗,去除异常样本,规范数据格式等
2. 数据分析   了解数据含义,分析特征分布,稳定性 做特征变量衍生等
3. 特征工程   筛选特征,比如计算变量IV,  特征转换,比如归一化、转换为woe等
4. 训练模型   选择算法进行训练,调参
5. 评估模型   模型效果评估, 常见指标有AUC, KS, Precision, Recall 等
6. 模型上线   线上部署,供业务方调用

IV值(Information Value)主要用来对输入变量进行编码和预测能力评估
特征变量IV值的大小即表示该变量预测能力的强弱,
在面对大量变量的情况下,可计算各个变量的IV值,取IV值大于某个固定值的变量参与到模型中去

WOE(Weight of Evidence)证据权重 常用于特征变换

WOE describes the relationship between a predictive variable and a binary target variable.
IV measures the strength of that relationship.

对于连续型变量,进行分箱(binning),可以选择等频、等距,或者自定义间隔
对于离散型变量,如果分箱太多,则进行分箱合并

AUC Area under Curve
精确率(Precision) 
召回率(Recall) 
准确率(Accuracy)
F值 F-Measure

上一篇     下一篇
docker命令实战

docker run 和 docker start 的区别

docker挂载本地目录

docker镜像导入导出

机器学习基础

python http server docker 镜像制作