欢迎来到建筑考试题库网 建筑考试题库官网
全部科目 > 资格类 > 人工智能训练师

判断题

强化学习中的策略梯度方法直接对策略进行参数化,并通过梯度上升来优化期望回报。

    【参考答案】

    正确

    (↓↓↓ 点击‘点击查看答案’看答案解析 ↓↓↓)

    点击查看答案&解析
    微信小程序免费搜题
    微信扫一扫,加关注免费搜题

    微信扫一扫,加关注免费搜题