单项选择题

A.值函数方法
B.策略梯度方法
C.监督学习方法
D.无监督学习方法