摘 要:针对多智能体对抗中因对手策略变化导致的非平稳性问题,在对手动作不可获取的限制下,提出一种基于不确定性的贝叶斯策略重用算法。在离线阶段,在策略学习的同时,通过自编码器建模智能体轨迹与对手动作之间的(试读)...