林老师在机器学习基石课程的lecture 6中谈到了为什么机器可以学习(Why can machines learn)。老师以二分类问题(binary classification)为例,利用VC理论得到了泛化上界(VC genearlization bound),从而从理论上保证了学习的可行性。关于VC泛化上界的正确性,老师采用了比较直观的方式解释其合理性,我听了之后很受启发,之后也阅读了课本Learning from data附录中VC泛化上界的严格证明。虽然阅读的过程比较痛苦,但好在定理证明的逻辑相当清晰,坚持啃完之后受益匪浅(至少再长的证明都有勇气看下去了,哈哈)。

定理1(VC generalization bound)

对任意的 ,不等式

的概率成立。

VC泛化上界可以由下面的VC不等式(VC inequality)推得:

定理2(VC inequality)

这里有两点要注意:

  1. 因为我们最后选择的 也是 中的一员,所以事件 被包含在事件 中,因此前者的概率 也会被 压制。
  2. 这里的随机性来源于数据集的不确定性,它是iid的从 中产生的 个数据 ,因此概率是对随机产生的大小为的数据集取的。

最后,只需要令 等于 ,反解出就可以得到VC泛化上界。因此,我们将重心放在证明VC不等式。接下来的证明来自课本的附录,我会补充一些细节以及自己的理解。

首先,由于我们不知道的具体分布,所以也就无法计算直接计算。其次,正如前面提到的注意2,数据集的不确定性是另一大麻烦。因此,证明的核心即为寻找 的一个可以计算的替代品,并且将问题先限制在某个固定的数据集上,然后再想办法进一步推广。

的替代品:

我们引入第二个数据集,称为ghost数据集。它是独立于,从中产生的新的个数据。Ghost数据集只是理论分析的一个工具,实际上我们并没有真的再次抽取个数据。我们希望用ghost数据集上的(in sample error ) 替代(out of sample error ),也就是找到 的上界。这就有了接下来的引理1(对应课本Lemma A.2),它告诉我们这样的替换是可行的。

引理 1

其中,RHS的概率取的联合概率。

Proof. 首先,我们可以假设 。利用概率的性质以及条件概率的定义,可以得到

现在考虑最后一项

这个条件概率基于事件

现在我们随机选取中的一个数据集固定住,并将此记为事件,那么在这个数据集上一定满足 。因此,一定存在一个hypothesis 使得

由于只依赖于而与ghost数据集的选取无关,所以相对ghost数据集是固定的。由Hoeffding不等式可以得到

注意这里的概率是对ghost数据集取的,所以才要求必须不随变化而变化。

现在最后一项 可以写成:

而对相乘的第二项,又有下列不等式成立

第一个不等式成立是因为事件 可以推出事件 ,第二个不等式成立则是因为事件 和事件 一起(二者取交)可以推出事件 ,而第三个不等式则是由Hoeffding不等式得到的。

因为对事件中任意的一个数据集,上面的不等式$\eqref{eq: 1}$都成立,所以

从而,我们证明了

引理1中的不等式还包含一项,为了去除它,我们可以假设,不然的话定理2(VC不等式)中的RHS 会比1大(因为 ,并且 )。于是就得到了

压制

找到 的替代品 之后,接下来就要想办法找到后者的一个上界。首先,注意到概率 是对数据集 和数据集 的联合分布取的,它们是各自独立地从 中随机产生的 个数据点的集合,因此产生 的过程可以等价地视为以下两步:

  1. 中随机产生 个数据,记为数据集
  2. 中不放回地随机抽取 个数据作为数据集 ,剩下的则作为数据集

于是,由全概率公式可以得到

现在,我们已经把问题限制在了一个大小为的数据集 上,而 在这个点上所能产生的dichotomy的数量是有限的,不会超过

又因为一个dichotomy对应到一个 所以不需要考虑中所有的hypothesis,只要取dichotomy的总数(设为 )个作为类代表就可以了。记为产生这个dichotomy的代表,则

于是,利用union bound就可以得到

这里也用到了事件 等价于事件 这个性质(这个说法不是特别严谨,但主要精神是这样)。

如果再用上条件 ,并对就可以得到下面的引理2(课本Lemma A.3):

引理2

这里LHS的概率取的联合概率,RHS的概率取将随机划分为的概率分布。

引理2将从概率里面提到了外面,这样就可以固定住一个,寻找该 的上界,这就有了接下来的引理3(课本Lemma A.4)。

引理3

其中,概率取自随机划分为的概率分布。

为了证明引理3,课本又引入了Lemma A.5(Hoeffding):

引理4(Hoeffding)

令集合 ,其中 ,并令为这个数的均值。若 为从 中进行不放回随机抽样所得到的大小为的样本,则

利用引理4可以证明引理3:

对应 ,可以令,若,否则,于是就是上所犯错误(error)的集合。接下来把随机划分为,得到两个in sample error

此时引理4中的

于是,

根据引理5,

即可证得引理3。

由引理1、2、3就可以证明定理2(VC不等式)。

参考文献

Abu-Mostafa, Y. S., Magdon-Ismail, M., & Lin, H. (2012). Learning from data: a short course. [United States]: AMLBook.com.