第1题
A.这不会对训练产生影响。只要随机初始化权重,梯度下降不受权重大小的影响。
B.这会导致tanh的输入也非常大,从而使梯度也变大。因此,你必须将学习率α设置得非常小以防止发散。这会减慢网络参数学习速度。
C.这会导致tanh的输入也非常大,从而使梯度接近于零,优化算法将因此变得缓慢。
D.这会导致tanh的输入也非常大,导致神经元被“高度激活”,从而加快了学习速度。
第2题
A.隐藏层太多时,可能导致靠近输入层的权重的偏导数太小而得不到更新
B.神经元处于Sigmoid等激活函数的饱和区工作,梯度值偏小
C.隐藏层神经元的个数太多导致
D.隐层的权重取值大容易导致梯度消失
第3题
A.激活函数需要具有线性可微的特点
B.Sigmoid函数的导数是非零的,很容易计算
C.Sigmoid函数的输出值域是对称的
D.ReLU函数主要缺点是相比于Sigmoid、Tanh函数其计算低效
第5题
A.ReLU函数的输出是非零中心化的,给后一层的神经网络引入偏置偏移,会影响梯度下降的效率
B.ReLU神经元在训练时比较容易“死亡”.在训练时,如果参数在一次不恰当的更新后,第一个隐藏层中的某个ReLU神经元在所有的训练数据上都不能被激活,那么这个神经元自身参数的梯度永远都会是0,在以后的训练过程中永远不能被激活.
C.LeakyReLU在输入时,保持一个很小的梯度,这样当神经元非激活时也能有一个非零的梯度可以更新参数,这在一定程度上缓解了梯度消失问题
D.三个选项均正确
第6题
A.对激活函数的输出结果进行范围限定,有助于梯度平稳下降,而ReLU输出范围无限的函数会导致梯度消失问题
B.ReLU函数中所有负值均被截断为结果0,从而导致特征丢失,可适当调高学习率避免此类情况
C.RMSProp学习率调整策略引入累积梯度的概念,从而解决学习率过早趋向于0而结束训练
D.随机梯度下降(SGD)每次更新只随机取一个样本,按照固定学习率计算梯度,所以速度较快
第7题
A.如果训练样本量较大,可选用随机梯度下降(SGD),它考虑历史梯度信息,更容易跳出局部极小值点
B.在高度非凸的深度网络优化过程,主要难点是鞍点
C.用无监督数据作分层预训练(Layer-wisePre-train)有助于解决梯度饱和问题
D.Sigmoid交叉熵损失函数适合于多标签学习,每一维彼此独立
为了保护您的账号安全,请在“上学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!