【机器学习实战】sklearn库中出现的线性模型(补充前篇线性回归)

2019-04-14 20:06发布

线性模型

一般我们可以把线性模型写作:f(x)=wTx+b的形式。sklearn中列举了线性回归、岭回归、lasso回归等线性模型,模型实在是多⊙▽⊙”,现将几个我印象比较深的做一下整理。
为了方便起见,我们令wT=(w1,w2,...,wn,b),因此预测值f(x)=w1x1+w2x2+...+wnxn+b=wTx,真实值为y,样本数量为m个,即(x1,x2,...,xm);特征为n个,即(x1,x2,...,xn)

【线性回归】

线性回归采用的是最小二乘法的思想,即使所有预测值f(x)与其真实值y的欧氏距离的平方最小,minw||wTxy||2
其损失函数写为:L(w)=((i=1m|f(xi)yi|2)12)2=i=1m(f(xi)y)2
有时为了方便求导会改写为L(w)=12mi=1m(f(xi)y)2

【Ridge回归】

岭回归,其实就是在线性回归的最小二乘法基础上加了正则化项(有时也喜欢叫惩罚项)。
主要是因为最小二乘法采用的是无偏估计,它的无偏性导致其对病态数据会很敏感,比如出现了一个离所有数据都很远的数据,为了最小化所有数据到拟合模型的距离之和最小,我们的模型必然会偏向这个数据,这样我们的模型的拟合效果并不符合实际。(其实也就是过拟合现象,众所周知,我们常用正则化来处理过拟合现象)
因此,岭回归针对最小二乘法进行了改进,即minw||wTxy||2+λ|