A.随机梯度下降法最终收敛的点不一定是全局最优
B.随机梯度下降法最终收敛的点一定是全局最优
C.无论随机梯度下降法存不存在最终收敛的点,一定可以找到最优解
D.无论随机梯度下降法存不存在最终收敛的点,一定不能找到最优解
第1题
A.Adam中的学习率超参数α通常需要调整
B.Adam优化算法常用于批量梯度下降法中,而不是用于随机(小批量)梯度下降法
C.我们经常使用超参数的默认值β1=0.9,β=0.999,∈10-8
D.Adam结合了Rmsprop和动量的优点
第2题
A.批量梯度下降法(BGD)每一次对模型参数的调整,都朝向代价函数值减小的方向
B.批量梯度下降法(BGD)每一次对模型参数的调整,都朝向代价函数值增加的方向
C.批量梯度下降法(BGD)每一次对模型参数的调整,都朝向代价函数值不变的方向
D.批量梯度下降法(BGD)每一次对模型参数的调整,都朝向代价函数值发生变化的方向
第3题
A.交叉熵也可以作为分类预测问题的损失函数
B.在使用梯度下降时,加上冲量项会减少训练的速度,但可能会增加陷入局部极小值的可能
C.与批量梯度下降法相比,使用小批量梯度下降法可以降低训练速度,但达到全局最优解可能需要更多的迭代次数
D.神经元的激活函数选择不影响神经网络的训练过程和最终性能
第5题
A.对激活函数的输出结果进行范围限定,有助于梯度平稳下降,而ReLU输出范围无限的函数会导致梯度消失问题
B.ReLU函数中所有负值均被截断为结果0,从而导致特征丢失,可适当调高学习率避免此类情况
C.RMSProp学习率调整策略引入累积梯度的概念,从而解决学习率过早趋向于0而结束训练
D.随机梯度下降(SGD)每次更新只随机取一个样本,按照固定学习率计算梯度,所以速度较快
第8题
?()
A.(1)是梯度下降;(2)是动量梯度下降(β=0.9);(3)是动量梯度下降(β=0.5)
B.(1)是动量梯度下降(β=0.5);(2)是动量梯度下降(β=0.9);(3)是梯度下降
C.(1)是动量梯度下降(β=0.5);(2)是梯度下降;(3)是动量梯度下降(β=0.9)
D.都有可能
第10题
A.如果训练样本量较大,可选用随机梯度下降(SGD),它考虑历史梯度信息,更容易跳出局部极小值点
B.在高度非凸的深度网络优化过程,主要难点是鞍点
C.用无监督数据作分层预训练(Layer-wisePre-train)有助于解决梯度饱和问题
D.Sigmoid交叉熵损失函数适合于多标签学习,每一维彼此独立
为了保护您的账号安全,请在“上学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!