回归问题的评价指标和知识点
所属分类 quant
浏览量 483
回归分析为许多机器学习算法提供了坚实的基础
线性回归四个假设
线性:自变量(x)和因变量(y)之间应该存在线性关系
独立性:特征应该相互独立,这意味着最小的多重共线性。
正态性:残差应该是正态分布的。
同方差性:回归线周围数据点的方差对于所有值应该相同。
什么是残差 , 如何用于评估回归模型?
残差是指预测值与观测值之间的误差。 它测量数据点与回归线的距离。
残差图 在y轴上显示所有残差,在 x 轴上显示特征。
如何区分线性回归模型和非线性回归模型?
线性回归模型假设特征和标签之间存在线性关系
非线性回归模型假设变量之间没有线性关系。 非线性(曲线)能够正确地分离和拟合数据。
找出数据是线性还是非线性的三种方法
残差图
散点图
假设数据是线性的,训练一个线性模型并通过准确率进行评估。
什么是多重共线性 它如何影响模型性能?
当某些特征彼此高度相关时,就会发生多重共线性。 相关性是指表示一个变量如何受到另一个变量变化影响的度量。
如果特征 a 的增加导致特征 b 的增加,那么这两个特征是正相关的。
如果 a 的增加导致特征 b 的减少,那么这两个特征是负相关的。
在训练数据上有两个高度相关的变量会导致多重共线性,因为它的模型无法在数据中找到模式,从而导致模型性能不佳。
在训练模型之前首先要尽量消除多重共线性。
异常值如何影响线性回归模型的性能?
线性回归模型试图找到一条可以减少残差的最佳拟合线。
如果数据包含异常值,则最佳拟合线将向异常值移动一点,从而增加错误率并得出具有非常高 MSE 的模型。
什么是 MSE 和MAE有什么区别?
MSE 代表均方误差,它是实际值和预测值之间的平方差。
MAE 是目标值和预测值之间的绝对差。
MSE 会惩罚大错误,而 MAE 不会。
随着 MSE 和 MAE 的值都降低,模型趋向于一条更好的拟合线。
L1 和 L2 正则化是什么,应该在什么时候使用?
在数据非常少的情况下,基本的线性回归模型往往会过度拟合,因此使用 l1 和l2 正则化。
L1 正则化或 lasso 回归通过在成本函数内添加添加斜率的绝对值作为惩罚项。
有助于通过删除斜率值小于阈值的所有数据点来去除异常值。
L2 正则化或ridge 回归增加了相当于系数大小平方的惩罚项。 它会惩罚具有较高斜率值的特征。
l1 和 l2 在训练数据较少、方差高、预测特征大于观察值以及数据存在多重共线性的情况下都很有用。
异方差是什么意思?
它是指最佳拟合线周围的数据点的方差在一个范围内不一样的情况。 它导致残差的不均匀分散。
如果它存在于数据中,那么模型倾向于预测无效输出。
检验异方差的最好方法之一是绘制残差图。
数据内部异方差的最大原因之一是范围特征之间的巨大差异。
例如,如果有一个从 1 到 100000 的列,那么将值增加 10% 不会改变较低的值,但在较高的值时则会产生非常大的差异,从而产生很大的方差差异的数据点。
方差膨胀因子的作用是什么的作用是什么?
方差膨胀因子(vif)用于找出使用其他自变量可预测自变量的程度。
以具有 v1、v2、v3、v4、v5 和 v6 特征的示例数据为例。
为了计算 v1 的 vif,将其视为一个预测变量,并尝试使用所有其他预测变量对其进行预测。
如果 VIF 的值很小,那么最好从数据中删除该变量。 因为较小的值表示变量之间的高相关性。
逐步回归(stepwise regression)如何工作?
逐步回归是在假设检验的帮助下,通过移除或添加预测变量来创建回归模型的一种方法。
它通过迭代检验每个自变量的显著性来预测因变量,并在每次迭代之后删除或添加一些特征。
它运行n次,并试图找到最佳的参数组合,以预测因变量的观测值和预测值之间的误差最小。
它可以非常高效地管理大量数据,并解决高维问题。
平均绝对误差(MAE)
MAE的优点
简单易懂。 结果将具有与输出相同的单位。
MAE 对异常值相对稳定(与其他一些回归指标相比,MAE 受异常值的影响较小)。
MAE的缺点
MAE使用模函数,但模函数不是在所有点处都可微的,所以很多情况下不能作为损失函数。
均方误差(MSE)
MSE的优点
平方函数在所有点上都是可微的,因此它可以用作损失函数。
MSE的缺点
由于 MSE 使用平方函数,结果的单位是输出的平方。 因此很难解释结果。
由于它使用平方函数,如果数据中有异常值,则差值也会被平方,因此,MSE 对异常值不稳定。
均方根误差 (RMSE):
均方根误差(RMSE)取每个实际值和预测值之间的差值,然后将差值平方并将它们相加,最后除以观测数量。 然后取结果的平方根。
因此,RMSE 是 MSE 的平方根。 为了使回归模型被认为是一个好的模型,RMSE 应该尽可能小。
R2 score
R2 score 给出的值介于 0 到 1 之间,可以针对任何上下文进行解释。可以理解为是拟合度的好坏。
SSR 是回归线的误差平方和,SSM 是均线误差的平方和。
回归线与平均线
如果 R2 得分为 0,模型与平均线的结果是相同的,因此需要改进模型
如果 R2 得分为 1,只有在模型适合每个数据点并且没有出现误差时才会发生。
如果 R2 得分为负,意味模型比平均线差,模型还不如取平均数进行预测
模型的 R2 得分为 0.8,
如果薪资模型有2个特征,工作年限和面试分数,那么模型能够使用这两个输入特征解释80%的工资变化
R2的缺点:
随着输入特征数量的增加,R2会趋于相应的增加或者保持不变,但永远不会下降,即使输入特征对模型不重要
Adjusted R2 score:
上一篇
下一篇
开源授权协议
多个ETF行情数据join,协方差 相关系数计算
《趋势永存:打败市场的动量策略》笔记
海龟交易系统
量化投资至暗时刻
量化投资术语