文章详情|回归问题的评价指标和知识点

回归问题的评价指标和知识点 所属分类 quant 浏览量 710
回归分析为许多机器学习算法提供了坚实的基础


线性回归四个假设
线性：自变量（x）和因变量（y）之间应该存在线性关系
独立性：特征应该相互独立，这意味着最小的多重共线性。
正态性：残差应该是正态分布的。
同方差性：回归线周围数据点的方差对于所有值应该相同。

什么是残差 , 如何用于评估回归模型？
残差是指预测值与观测值之间的误差。 它测量数据点与回归线的距离。  
残差图 在y轴上显示所有残差，在 x 轴上显示特征。 


如何区分线性回归模型和非线性回归模型？

线性回归模型假设特征和标签之间存在线性关系

非线性回归模型假设变量之间没有线性关系。 非线性（曲线）能够正确地分离和拟合数据。


找出数据是线性还是非线性的三种方法 

残差图
散点图
假设数据是线性的，训练一个线性模型并通过准确率进行评估。




什么是多重共线性 它如何影响模型性能？
当某些特征彼此高度相关时，就会发生多重共线性。 相关性是指表示一个变量如何受到另一个变量变化影响的度量。
如果特征 a 的增加导致特征 b 的增加，那么这两个特征是正相关的。 
如果 a 的增加导致特征 b 的减少，那么这两个特征是负相关的。 
在训练数据上有两个高度相关的变量会导致多重共线性，因为它的模型无法在数据中找到模式，从而导致模型性能不佳。
在训练模型之前首先要尽量消除多重共线性。

异常值如何影响线性回归模型的性能？
线性回归模型试图找到一条可以减少残差的最佳拟合线。 
如果数据包含异常值，则最佳拟合线将向异常值移动一点，从而增加错误率并得出具有非常高 MSE 的模型。



什么是 MSE 和MAE有什么区别？
MSE 代表均方误差，它是实际值和预测值之间的平方差。 
MAE 是目标值和预测值之间的绝对差。
MSE 会惩罚大错误，而 MAE 不会。
随着 MSE 和 MAE 的值都降低，模型趋向于一条更好的拟合线。

L1 和 L2 正则化是什么，应该在什么时候使用？
在数据非常少的情况下，基本的线性回归模型往往会过度拟合，因此使用 l1 和l2 正则化。

L1 正则化或 lasso 回归通过在成本函数内添加添加斜率的绝对值作为惩罚项。 
有助于通过删除斜率值小于阈值的所有数据点来去除异常值。
L2 正则化或ridge 回归增加了相当于系数大小平方的惩罚项。 它会惩罚具有较高斜率值的特征。
l1 和 l2 在训练数据较少、方差高、预测特征大于观察值以及数据存在多重共线性的情况下都很有用。

异方差是什么意思？
它是指最佳拟合线周围的数据点的方差在一个范围内不一样的情况。 它导致残差的不均匀分散。 
如果它存在于数据中，那么模型倾向于预测无效输出。
检验异方差的最好方法之一是绘制残差图。

数据内部异方差的最大原因之一是范围特征之间的巨大差异。 
例如，如果有一个从 1 到 100000 的列，那么将值增加 10% 不会改变较低的值，但在较高的值时则会产生非常大的差异，从而产生很大的方差差异的数据点。

方差膨胀因子的作用是什么的作用是什么？
方差膨胀因子（vif）用于找出使用其他自变量可预测自变量的程度。
以具有 v1、v2、v3、v4、v5 和 v6 特征的示例数据为例。 
为了计算 v1 的 vif，将其视为一个预测变量，并尝试使用所有其他预测变量对其进行预测。
如果 VIF 的值很小，那么最好从数据中删除该变量。 因为较小的值表示变量之间的高相关性。

逐步回归(stepwise regression)如何工作?
逐步回归是在假设检验的帮助下，通过移除或添加预测变量来创建回归模型的一种方法。
它通过迭代检验每个自变量的显著性来预测因变量，并在每次迭代之后删除或添加一些特征。
它运行n次，并试图找到最佳的参数组合，以预测因变量的观测值和预测值之间的误差最小。
它可以非常高效地管理大量数据，并解决高维问题。







平均绝对误差（MAE）
MAE的优点
简单易懂。 结果将具有与输出相同的单位。 
MAE 对异常值相对稳定（与其他一些回归指标相比，MAE 受异常值的影响较小）。

MAE的缺点
MAE使用模函数，但模函数不是在所有点处都可微的，所以很多情况下不能作为损失函数。


均方误差（MSE）


MSE的优点
平方函数在所有点上都是可微的，因此它可以用作损失函数。

MSE的缺点
由于 MSE 使用平方函数，结果的单位是输出的平方。 因此很难解释结果。
由于它使用平方函数，如果数据中有异常值，则差值也会被平方，因此，MSE 对异常值不稳定。


均方根误差 (RMSE)：

均方根误差（RMSE）取每个实际值和预测值之间的差值，然后将差值平方并将它们相加，最后除以观测数量。 然后取结果的平方根。 
因此，RMSE 是 MSE 的平方根。 为了使回归模型被认为是一个好的模型，RMSE 应该尽可能小。





R2 score
R2 score 给出的值介于 0 到 1 之间，可以针对任何上下文进行解释。可以理解为是拟合度的好坏。

SSR 是回归线的误差平方和，SSM 是均线误差的平方和。 
回归线与平均线

如果 R2 得分为 0，模型与平均线的结果是相同的，因此需要改进模型
如果 R2 得分为 1，只有在模型适合每个数据点并且没有出现误差时才会发生。
如果 R2 得分为负，意味模型比平均线差，模型还不如取平均数进行预测

模型的 R2 得分为 0.8，
如果薪资模型有2个特征，工作年限和面试分数，那么模型能够使用这两个输入特征解释80%的工资变化


R2的缺点:

随着输入特征数量的增加，R2会趋于相应的增加或者保持不变，但永远不会下降，即使输入特征对模型不重要


Adjusted R2 score:
开源授权协议

多个ETF行情数据join,协方差相关系数计算

《趋势永存:打败市场的动量策略》笔记

海龟交易系统

量化投资至暗时刻

量化投资术语