机器学习一般流程
所属分类 privacy-compute
浏览量 643
1. 数据导入及预处理 数据清洗,去除异常样本,规范数据格式等
2. 数据分析 了解数据含义,分析特征分布,稳定性 做特征变量衍生等
3. 特征工程 筛选特征,比如计算变量IV, 特征转换,比如归一化、转换为woe等
4. 训练模型 选择算法进行训练,调参
5. 评估模型 模型效果评估, 常见指标有AUC, KS, Precision, Recall 等
6. 模型上线 线上部署,供业务方调用
IV值(Information Value)主要用来对输入变量进行编码和预测能力评估
特征变量IV值的大小即表示该变量预测能力的强弱,
在面对大量变量的情况下,可计算各个变量的IV值,取IV值大于某个固定值的变量参与到模型中去
WOE(Weight of Evidence)证据权重 常用于特征变换
WOE describes the relationship between a predictive variable and a binary target variable.
IV measures the strength of that relationship.
对于连续型变量,进行分箱(binning),可以选择等频、等距,或者自定义间隔
对于离散型变量,如果分箱太多,则进行分箱合并
AUC Area under Curve
精确率(Precision)
召回率(Recall)
准确率(Accuracy)
F值 F-Measure
上一篇
下一篇
docker命令实战
docker run 和 docker start 的区别
docker挂载本地目录
docker镜像导入导出
机器学习基础
python http server docker 镜像制作