uu快3在线官网_uu快3神彩_总代 - uu快3在线官网,uu快3神彩,总代是新浪网最重要的频道之一,24小时滚动报道国内、国际及社会新闻。每日编发新闻数以万计。

吴恩达《深度学习》第二门课(1)深度学习的实用层面

  • 时间:
  • 浏览:3

(1)直观上理解:我如此多 说依赖于任何有还有一个结构,可能该单元的输入可能随时被清除,可能说该单元的输入也都可能被随机清除,但会 不我想要在任何有还有一个输入单元上换成如此多的权重,会把权重分摊给有些单元,这着实产生了收缩权重的平方范数的效果。

(2)可能算法的梯度检验失败,前要检测所有项。

(4)正则化常常被称为“权重衰减”,是可能正则项会试图让W变得更小,实际上离米 给矩阵W乘以(1-αλ/m),如下所示:

(2)L1正则化往往会使得W最终稀疏,即w向量中好多好多 是0,事实证明它并很难减少如此多的存储空间,好多好多 现在如此多人还是使用L2正则。

(1)原网络如下:

x-=μ

(3)不同层之间可不都可不后能 使用不同的keep-prob,一般矩阵W越大的层,越容易导致 过拟合,好多好多 keep-prob的值设置的越低(输入层一般为1),如下所示:

(5)dropout的一大缺点也不代价函数J不再明选泽义,每次迭代,也有随机移除有些节点,可能说五种程度上很难准确计算。

(2)在机器学习中,通常将样本分成训练集,验证集和测试集三每项,数据规模相对较小,适合传统的划分比例(如6:2:2),数据集规模比较大的,验证集和测试集要小于数据总量的20%可能10%甚至更低。

(3)当代价函数暗含正则化项时,dθ务必将正则项换成进去,我如此多 说漏了。

(2)使用ReLU激活函数时,对w常用的初始化(可能是看输入个数,即上一层的神经元个数):

(1)深度1学习是有还有一个按照下图进行循环的快速迭代的过程,往往前要多次才能为应用tcp连接找到有还有一个称心的神经网络。

双边误差公式:

(3)L2正则式子如下:

(2)第二种理解,W实际我如此多 变成零,只会变得非常小,这一个多z也会变得非常小,很难根据以下的激活函数,可能在后边线性的地方活动,很难相当与经过好多好多 次线性变换,好多好多 这也导致 网络变得简答,消除了过拟合状态。

(4)有还有一个才可不都可不后能 训练集和验证集,很难独立的测试集(将无法提供无偏性能评估),这时亲戚亲戚一帮人都也会把验证集称为测试集。

early stoping的主要缺点也不控制w不如此多的有还有一个,也终止的优化代价函数J,而才可不都可不后能 向有些方法一样:一方面不断的使代价函数变小,用另外的方法来控制使其不占据 过拟合。

x/=σ 2

(2)最优误差也称为贝叶斯误差,本节中假设最有误差为零(如在图像分类中人可不都可不后能 辨别出所有图像的类别)。

(2)检查计算值和偏到的欧氏距离,当小于10-7,很好;10-5,前要检查;10-3很可能占据 错误。

则有:

(3)交叉验证集和测试集务必来自同分布。

(3)归一化有还有一个的代价函数如下右图所示(左图为未归一化),归一化有还有一个可不都可不后能 使用更大的学习率,可能每一步完全也有朝向梯度下降的方向进行的。

(1)以下有还有一个图分别表示欠拟合(高偏差),适度拟合,过拟合(高方差):

公式分别如下:

(1)数据增强:旋转、扭曲、任意裁剪放大等。

(1)偏差和方差是五种完全不同的状态,有分别对应的处理方法,我如此多 说盲目的使用有些策略。

(3)训练误差减去左右误差为偏差,结果大说明偏差大;验证集误差减去训练误差为方差,结果大说明偏差大。

(1)第五种直观理解,首先有还有一个很繁杂的神经网络(过拟合):

(2)设置keep-prob为0.8(离米 有还有一个d[l]向量中60 %为1,百分之20%为零),这一向量与某一层的输出a[l]相乘(与零相乘自然输出就为零了),其网络示意图如下(图中是设置为0.5):

(1)归一化前要两步:零均值(减去均值)、归一化方差(除以方差)(测试集用的是训练集的均值和方差做处理,我如此多 说再计算测试集的均值方差),其效果如下:

单边误差公式:

(4)梯度检验和dropout我如此多 说一起去使用,梯度检验是关掉dropout。后者的占据 可能难以计算代价函数J。

(4)计算机视觉中常用dropout,可能像素(结构)如此多,数据量如此多,常常导致 过拟合。

(5)以上给出的初始化方差完全也有默认值,可能想改变方差,可不都可不后能 在后边的公式再乘以有还有一个系数。(通常这一步的调优优先级不高)

(1)过拟合常用的五种处理方法:换成正则化项(容易实现),增加更多数据(有还有一个很难得到更多数据)。

(1)对代价函数的每有还有一个参数进行双边梯度检测:

(1)双边误差公式比单边误差公式更准确。

(5)这有些一般状态下我如此多 再次再次出现,比较微妙:才可不都可不后能 在w,b较小的有还有一个,梯度检验才会正确,好多好多 一般过程是先初始化,但会 就进行梯度检验,再进行训练(训练一般会时w,b变大导致 梯度检验很难不准确)。

(1)假设为线性激活函数,忽略b,很难对于以下的网络,有如下的输出:

(3)合理的初始化才能较有效(着实才可不都可不后能 完美处理)处理如上问题。

(1)z是由参数与结构乘积求和得到,如下式,亲戚亲戚一帮人都不希望z过大(爆炸)可能过小(消失),好多好多 当结构有点硬多时,很自然的希望初始化时w能比较小,好多好多 w的初始化应该与各层的输入个数有关。

(4)是占据 高偏差高方差的状态的,如下图,直线导致 高偏差,局部过拟合导致 高方差:

但会 换成正则项,使λ,这一个多好多好多 权重变成0,但会 离米 消除了好多好多 隐藏单元,繁杂网络变成很简单的网络(欠拟合),从过拟合到欠拟合后边会经历最优拟合的状态,如下图所示:

(2)early stopping:在交叉验证集代价函数(误差率等)下降又上升的拐点处停止,如下图所示:

(4)测试的有还有一个不使用dropout。

(2)dropout被正式的作为五种正则化的替代方法,L2对不同权重的衰减是不同的,他取决于倍增的激活函数的大小。

他是1.5倍的单位矩阵,y=1.5(L-1)x,这一个多输出是随着层数增加呈现指数增大的(梯度爆炸,导数时完全也有这一性质);同理,可能把1.5改成0.5时,可能呈现指数减小,即梯度消失(导数时完全也有这一性质)。

(2)各结构取值在同有还有一个数量级时(如分别为0-1,-1到1,1-2)时不前要归一化,可能在不同不同数量级前要进行归一化(如0-1,0-60 0)。

(4)有些初始化方法:

(2)在深度1学习时代,假如正则适度,通常构建有还有一个更大的网络便可不都可不后能 在不影响方差的一起去减少偏差,而采用更多数据通常可不都可不后能 在不如此多影响偏差的一起去减少方差。

(1)我如此多 说在训练的有还有一个应该梯度检测,它只用于调试。

其中被定义为矩阵中所有元素的平方求和。

(3)在上一步乘积有还有一个的值又会除以0.8,如下面的公式,有还有一个可不都可不后能 保证均值我如此多 占据 改变(可能单元数减少会导致 后边一层的输入减少,通过除以减大量来维持不变)

(2)后边着实只讨论的激活函数的指数级递增递减,但它同样适用于于层数L相关的导数和梯度函数,也是呈现指数级增长或指数递减。

(3)使用tanh激活函数时,对w常用的初始化:

假设每个权重为: