上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
4.4 Delta学习规则
1986年,认知心理学家麦克利(McClelland)和鲁姆哈特(Rumelhart)在神经网络训练中引入了Delta学习规则,该规则也可以称为连续感知器学习规则。
Delta学习规则是一种利用梯度下降法的一般性的学习规则,其实就是利用梯度下降法来最小化代价函数。例如,代价函数为式(4.2)介绍的均方差代价函数,为了简单,我们只计算一个样本的均方差公式。如果是计算多个样本,可以求所有样本代价函数的平均值。一个样本的均方差公式定义如下:
误差E是W的函数,我们可以使用梯度下降法来最小化E的值,权值矩阵的变化ΔW等于负的学习率(-η)乘以E对W进行求导:
注意,这里的X和W都是矩阵,所以这里求导的时候是对矩阵W进行求导,矩阵求导的方式跟单个元素求导的方式有一些不同。式(4.11)是单个w元素的权值变化计算:
这里的δ符号没有什么特别的含义,就是用来替代(t-y)f′(WX)。Δwi表示第i个权值的变化。
在上一章节中,关于单层感知器的权值变化公式是如何得到的还没有解释,这里我们可以看到,当我们使用线性激活函数y=x时,激活函数的导数f′(WX)=1,所以:
式(4.12)跟感知器的学习规则式(3.2)是一样的,所以使用Delta学习规则我们可以推导出感知器的学习规则。