A.梯度为0时神经元难以正常工作
B.缓解了梯度消失问题
C.提高l网络训练速度
D.开销小、计算快
第1题
A.ReLU函数的输出是非零中心化的,给后一层的神经网络引入偏置偏移,会影响梯度下降的效率
B.ReLU神经元在训练时比较容易“死亡”.在训练时,如果参数在一次不恰当的更新后,第一个隐藏层中的某个ReLU神经元在所有的训练数据上都不能被激活,那么这个神经元自身参数的梯度永远都会是0,在以后的训练过程中永远不能被激活.
C.LeakyReLU在输入时,保持一个很小的梯度,这样当神经元非激活时也能有一个非零的梯度可以更新参数,这在一定程度上缓解了梯度消失问题
D.三个选项均正确
第3题
A.对激活函数的输出结果进行范围限定,有助于梯度平稳下降,而ReLU输出范围无限的函数会导致梯度消失问题
B.ReLU函数中所有负值均被截断为结果0,从而导致特征丢失,可适当调高学习率避免此类情况
C.RMSProp学习率调整策略引入累积梯度的概念,从而解决学习率过早趋向于0而结束训练
D.随机梯度下降(SGD)每次更新只随机取一个样本,按照固定学习率计算梯度,所以速度较快
第4题
A.隐藏层太多时,可能导致靠近输入层的权重的偏导数太小而得不到更新
B.神经元处于Sigmoid等激活函数的饱和区工作,梯度值偏小
C.隐藏层神经元的个数太多导致
D.隐层的权重取值大容易导致梯度消失
第5题
A.使用修正的线性单元(ReLU)作为非线性激活函数
B.在训练的时候使用Dropout技术有选择地忽视单个神经元,以避免模型过拟合
C.覆盖进行较大池化,避免平均池化的平均化效果
D.使用GPUNVIDIAGTX580减少训练时间
第6题
A.交叉熵也可以作为分类预测问题的损失函数
B.在使用梯度下降时,加上冲量项会减少训练的速度,但可能会增加陷入局部极小值的可能
C.与批量梯度下降法相比,使用小批量梯度下降法可以降低训练速度,但达到全局最优解可能需要更多的迭代次数
D.神经元的激活函数选择不影响神经网络的训练过程和最终性能
第8题
A.减少了计算量
B.ResNet的梯度通过shortcut回到更早的层,缓解了网络因为深度增大导致的梯度消失
C.引入残差模块,简化了学习
D.改善了网络的特征获取能力
第9题
A.BN主要解决深度神经网络各层输入的分布一致,增加训练过程的平衡
B.BN可以减少每个隐层神经元梯度的变化幅度
C.BN起到了减少过拟合的作用
D.BN一般位于隐层神经元的激活函数输出之后
第10题
A.这不会对训练产生影响。只要随机初始化权重,梯度下降不受权重大小的影响。
B.这会导致tanh的输入也非常大,从而使梯度也变大。因此,你必须将学习率α设置得非常小以防止发散。这会减慢网络参数学习速度。
C.这会导致tanh的输入也非常大,从而使梯度接近于零,优化算法将因此变得缓慢。
D.这会导致tanh的输入也非常大,导致神经元被“高度激活”,从而加快了学习速度。
为了保护您的账号安全,请在“上学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!