加权最小二乘法与局部加权线性回归
一.前言
在往前可以看得见的历史里,我们漫长的一生中不知道做了多少个回归,然而并不是每一个回归都尽如人意,究其原因就很多了,可能是回归的方程选择的不好,也可能是参数估计的方法不合适。回归的本质是在探寻因变量Y和自变量X之间的影响关系(PS:国外的论文里常常叫因变量为响应变量,自变量为解释变量),如何来描述这种相关关系呢?我们可以假设Y的值由两部分组成,一部分是X能决定的,记为
需要注意
的是由于有常数项,所以自变量个数其实是p-1个)
Gauss-Markov假设可以简写为
普通最小二乘法
就是使得残差平方和
与之相关的各种分布和检验就不再赘述,社区里也有很多帖子可以学习。既然模型有假设,那么局限性就出来了,我们常常会发现残差项并不满足假设,尤其当变量是时间序列时,非平稳性和自相关性常常会造成异方差的问题,那怎么处理异方差的问题呢?方法也挺多的,本帖主要讨论一种加权最小二乘估计的方法和机器学习里局部加权线性回归的方法。
(注:本帖的线性回归是普适的多元线性回归,所以均用矩阵来表示,更方便)
二.加权最小二乘法
加权最小二乘法其实是广义最小二乘法的一种特殊情形,而普通最小二乘法也是一种特殊的加权最小二乘法。为了保证知识的完整性,不妨把广义最小二乘介绍一下:
1.广义最小二乘法
刚才说到我们的残差项项不满足Gauss-Markov假设,那么我们就把假设放宽一些:考虑以下模型:
这里我们的广义最小二乘法就是使得广义残差平方和
实际上,
从上面可以看出,不论你对自变量和因变量作了何等变换,最终都可以用最小二乘的模型去解决回归的问题。但普通最小二乘估计里的那些美好的性质,分布和检验等在广义最小二乘里还存在么?还一致么?其实,我们可以通过一些变换,把广义最小二乘的模型转换为满足普通最小二乘法假设的模型,关于这一点,我们以下面的加权最小二乘法举例说明。
2.加权最小二乘法
加权最小二乘法,就是对上述的
我们并不满足于求出广义的最小二乘估计,我们还要研究它的很多性质,下面上面提过的广义最小二乘转换的方法把这个模型转化为满足普通最小二乘回归假设的模型:
首先我们找一下
这时候
不妨重新对变量命名:
三.局部加权线性回归
局部加权线性回归是机器学习里的一种经典的方法,弥补了普通线性回归模型欠拟合或者过拟合的问题。机器学习里分为无监督学习和有监督学习,线性回归里是属于有监督的学习。普通的线性回归属于参数学习算法(parametric learning algorithm);而局部加权线性回归属于非参数学习算法(non-parametric learning algorithm)。所谓参数学习算法它有固定的明确的参数,参数 一旦确定,就不会改变了,我们不需要在保留训练集中的训练样本。而非参数学习算法,每进行一次预测,就需要重新学习一组 , 是变化的,所以需要一直保留训练样本。也就是说,当训练集的容量较大时,非参数学习算法需要占用更多的存储空间。
上面的话好像不够直观,下面我们来直观地看一下局部加权线性回归到底是怎么样的。
局部加权线性回归就是在给待测点附近的每个点赋予一定的权重,也就是加一个核函数矩阵W,最后需要最小化的目标函数如下:
这里出现了一个问题,权重是如何确定的,也就是这个所谓的核函数矩阵的形式,百度了一下,通常使用的都是高斯核,形式如下:
介绍到这里似乎没有体现出机器学习的意思,仔细观察就会发现K是一个很重要的东西,不信,我们举个例子
来看看:
例子:
xxxxxxxxxx
import numpy as np
import pandas as pd
import scipy.stats as stats
from math import *
为了简单起见,我们就用一元的线性回归来看看,方便数据可视化。这里我们取一些非线性拟合的数据,因为局部加权线性回归的优势就在于处理非线性关系的异方差问题。
xxxxxxxxxx
#x取1~100,y取某一个非线性函数
x = np.arange(1,101)
x=np.array([float(i) for i in x])
y =x+[10*sin(0.3*i)for i in x]+stats.norm.rvs(size=100, loc=0, scale=1.5)
xxxxxxxxxx
#先加载画图需要用的包
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.style.use('ggplot')
import seaborn as sns
看一下我们需要拟合的样本数据:
xxxxxxxxxx
plt.figure(figsize=(12,6))
plt.scatter(x,y)
很明显,这是一个非线性关系的样本数据,我们先用普通最小二乘回归来处理这个问题:
xxxxxxxxxx
slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
xxxxxxxxxx
plt.figure(figsize=(12,6))
yHatLinear=intercept+slope*x
plt.plot(x,yHatLinear,'r')
plt.scatter(x,y)
print 'y='+str(intercept)+'+'+str(slope)+'x'
可以看到,要用直线来拟合非线性关系略有牵强,这个例子还算举的不错,金融数据里很多时间序列的关系都是非线性的,回归的结果往往不好.
下面我们用刚才介绍的局部加权线性回归来拟合一下这个模型,简单回顾一下过程:
1.用高斯核函数计算出第i个样本处,其它所有样本点的权重W
2.用权重w对第i个样本作加权线性回归,得到回归方程,即拟合的直线方程
3.用刚才得到的经验回归直线计算出
4.重复一至三步,得到每个样本点的估计值
这里作加权线性回归时,我使用的是把加权最小二乘转换为普通最小二乘的方法,也就是本帖第二部分内容,网上的做法大多是直接用上面的公式算出
xxxxxxxxxx
#局部加权线性回归里的权重的平方根
def get_sqrtW(x0,k): #x0处其它样本点的权重
w=np.zeros(len(x))
for i in range(len(x)):
w[i]=exp(-(x[i]-x0)**2/(2*k*k))
w=np.array([sqrt(i) for i in w])
return w
xxxxxxxxxx
import statsmodels.api as sm
刚才说到,k是一个很关键的参数,我们从高斯函数的形式可以看出,k取非常大的时候,每个样本点的权重都趋近于1,我们可以先取k很大,检验一下是否正确
xxxxxxxxxx
#把整个过程定义成一个函数,方便改参数进行研究
def get_yHat2(k):
yHat2=np.zeros(len(x))
for i in range(len(x)):
#把加权最小二乘转化为普通最小二乘,详情请看第二部分
w=get_sqrtW(x[i],k)
x2=w*x
x2=x2[x2>0] #去掉样本权重为0的样本
y2=w*y
y2=y2[y2>0]
X=np.zeros((1,len(x2)))
X[0]=x2
X=X.T
X = sm.add_constant(X,has_constant='skip')
X[:,0]=w[w>0]
Y=y2
model = sm.OLS(Y, X)
results = model.fit()
a = results.params[0]
b = results.params[1]
yHat2[i]=a+b*x[i] #得到xi处的估计值
return yHat2
xxxxxxxxxx
yHat2=get_yHat2(100000) #k取100000
plt.figure(figsize=(12,6))
plt.plot(x,yHat2,'r')
plt.scatter(x,y)
xxxxxxxxxx
data=pd.DataFrame()
data['y']=y
data['yHatLinear']=yHatLinear
data['yHat2']=yHat2
data.head()
y | yHatLinear | yHat2 | |
---|---|---|---|
0 | 3.144993 | 2.325219 | 2.325219 |
1 | 7.656654 | 3.304751 | 3.304751 |
2 | 10.793202 | 4.284283 | 4.284283 |
3 | 13.490299 | 5.263815 | 5.263815 |
4 | 15.914143 | 6.243347 | 6.243347 |
可以看到用普通最小二乘估计出来的值和我们用局部加权估计出来的值非常的一致,说明我们的逻辑是对的。 下面调整一下k的值,来看看各种k值下的拟合状况:
xxxxxxxxxx
yHat2=get_yHat2(10)
plt.figure(figsize=(12,6))
plt.plot(x,yHat2,'r')
plt.scatter(x,y)
plt.title('k=10')
yHat2=get_yHat2(1)
plt.figure(figsize=(12,6))
plt.plot(x,yHat2,'r')
plt.scatter(x,y)
plt.title('k=1')
yHat2=get_yHat2(0.1)
plt.figure(figsize=(12,6))
plt.plot(x,yHat2,'r')
plt.scatter(x,y)
plt.title('k=0.1')
可以看到,当k越小时,拟合的效果越好,但是我们拟合的目的在于预测,需要避免过拟合的问题,这时候需要做Bias/Variance Trade-off:
Cross Validation可以帮助我们做Bias/Variance Trade-off:
一般的Validation就是把数据分为随机的两部分一部分做训练,一部分作验证。还有leave-one-out validation,k-fold Cross Validation等方法。
训练的目的是为了让训练误差尽量减小,同时也要注意模型的自由度(参数个数),避免测试误差很大。
训练误差一般用MSE来衡量:
三.总结
学以致用,统计的方法众多,运用存乎一心,学习的路上从来不孤单。本帖在于学习总结,如有谬误之处,望指正。
给时光以生命,给岁月以文明。 ——刘慈欣
xxxxxxxxxx
null