针对只包含单个样例(x,y)的网络,代价函数为:
对于包含m个样本空间的数据集,网络的整体代价函数可定义为:
其中,系数λ影响式(1-11)中两项的相对权重,代价函数的优化目标是利用参数W和b通过反复迭代求取J(W,b)的最小值。采用梯度下降法更新参数:
其中,α是学习率。