单项选择题
Q学习是强化学习的常用框架之一,其中的Q是指()
A.策略B.主体状态C.某一状态下执行某一动作的分数D.某一状态下使用某一动作学习策略的分数
单项选择题 Q学习是()年提出的,是最早的在线强化学习算法。
单项选择题 以下哪个是长短时记忆网络(LSTM)的引入原因()
单项选择题 变分自编码器中假设隐变量满足以下哪个分布()