step()方法,可以基于一个举措降级环境的形态。举措用整数示意:0示意持有,1示意购置,2示意发售。假设代理人选择买入,股票的收盘价将被参与到头寸列表中。一旦经纪人选择卖出,该方法计算每个未平仓头寸的利润或损失,并相应地降级利润变量。而后,一切未平仓头寸被平仓。依据卖出行为中发生的利润或损失,鼓励被增添到- 1,0或1。
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://clwxseo.com/wangluoyouhua/6874.html