单项选择题

A.在使用梯度下降时,加上冲量项会减少训练的速度,但可能会减少陷入局部极小值的可能
B.与批量梯度下降法相比,使用小批量梯度下降法可以提高训练速度,但达到全局最优解可能需要更多的迭代次数
C.神经元的激活函数选择影响神经网络的训练过程和最终性能
D.交叉熵也可以作为回归预测问题的损失函数