李航《统计学习方法》笔记(1)
Contents
《统计学习方法》第一章统计学习方法概述笔记。
书中着重于离散变量(数据分为连续变量和离散变量表示的类型)、监督学习。
一些基本定义:
- 输入和输出:模型的输入和输出。也看作是定义在输入空间与输出空间上的随机变量$X$和$Y$,所取的值为$x$和$y$。
- 输入空间和输出空间:输入和输出所有可能取值的集合,记作$\mathcal{X}$和$\mathcal{Y}$,有$x\in \mathcal{X} \subseteq R^n $。
- 实例:每个具体的输入,通常由特征向量表示 $x=(x^{(1)},x^{(2)},\ldots,x^{(n)})^T$。注意,$x^{(i)}$表示$x$的第$i$个特征,另用$x_i$表示多个输入变量中的第$i$个。
- 特征空间:所有特征向量存在的空间。特征空间的每一维对应于一个特征。有时不予区分输入空间和特征空间。
- 样本或样本点:输入与输出对$(x,y)$。
- 训练集:是给定的、有限的、用于学习的,且假设数据依联合概率分布$P(X,Y)$独立同分布产生。记作$T=\{(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)\}$。
- 假设空间:包含所有可能的模型的集合,用$\mathcal{F}$表示。即是输入空间$\mathcal{X}$到输出空间$\mathcal{Y}$的映射的集合,映射(或模型)可以是概率模型(条件概率分布)$P(Y|X)$或非概率模型(决策函数)$Y=f(X)$,对应参数向量决定的分布族$\mathcal{F}=\{P|P_\theta (Y|X),\theta \in R^n\}$和函数族$\mathcal{F}=\{f|Y=f_\theta (X),\theta \in R^n\}$,其中参数向量$\theta$取值于$n$维欧式空间。
统计学习方法:
对训练集,从假设空间中根据某个评价准则用算法学习一个最优模型,使它对训练集和测试集在这个评价准则下有最优的预测。
评价准则
- 损失函数:度量模型一次预测的好坏,是预测值和真实值的非负实值函数,记作$L(Y,f(X))$。包括0-1损失函数、平方损失函数、绝对损失函数、对数损失函数。
- 期望损失(或风险函数、期望风险):度量平均意义下模型预测的好坏,是损失函数的期望。由于$X$和$Y$遵循联合分布$P(X,Y)$,所以期望损失$R(f)=E_P[L(Y,f(X))]=\int_{\mathcal{X},\mathcal{Y}} L(y,f(x)) P(x,y) dxdy$,学习的目标就是选择该值最小的模型,但$P(x,y)$实际难以得到。
- 经验损失(或经验风险):是模型关于训练集的平均损失$\hat{R}(f)=\frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))$,根据大数定律,当样本容量$N$趋于无穷时,经验损失趋近于期望损失。但是现实中训练样本数量有限,需要对经验损失进行一定的矫正。
- 经验风险最小化: $\min_{f\in \mathcal{F}} \frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))$,样本容量足够大时采用,如极大似然估计。
- 结构风险最小化:$\min_{f\in \mathcal{F}} \frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))+\lambda J(f)$,样本容量很小时,加入代表模型复杂度的惩罚项防止过拟合,如最大后验概率估计。
- 监督学习问题转换为经验风险或结构风险函数的最优化问题。
- 泛化误差:所学到的模型的期望风险$R(\hat{f})=E_P[L(Y,\hat{f}(X))]=\int_{\mathcal{X},\mathcal{Y}} L(y,\hat{f}(x)) P(x,y) dxdy$