欢迎来到建筑考试题库网建筑考试题库官网

注册

全部科目 > 资格类 > 人工智能训练师

判断题

强化学习中的策略梯度方法直接对策略进行参数化，并通过梯度上升来优化期望回报。

【参考答案】

正确

(↓↓↓ 点击‘点击查看答案’看答案解析 ↓↓↓)

点击查看答案&解析

上一题目录下一题

相关考题

微信小程序免费搜题

All Rights Reserved 版权所有©建筑考试题库(jzkao.com)

备案号：湘ICP备2020024380号-3

关注
顶部

微信扫一扫,加关注免费搜题

微信扫一扫,加关注免费搜题