openai dota2 细节
openai dota2 细节
- ai直接读引擎数据,大约有2000个数据
- 有部分子目标是由既了解dota2又了解优化算法的人预先设定的,比如击杀敌方英雄,自己死亡,塔的价值等的奖励函数都是预先写死的
- 没有使用simulation
- ai乱插眼,是因为插眼的价值函数很难判断,开发人员允许比赛中ai插眼,只能为了看ai的表现,希望有所收获
- ai喜欢去看肉山,是因为开发人员在训练的时候把肉山的血量随机生成,方便ai明白肉山的重要性。否则单个ai去打肉山几乎永远无法获胜,多个ai集合在肉山附近,又几乎不可能。只能把肉山血量调低,这样ai就有机会击败肉山,明白这一行为的重要性
- 第三局,当ai处于严重劣势的时候,表现的无所适从。这是因为训练的ai,只是自己和自己打,双方旗鼓相当,对于崩盘的情况很少碰到,无法做出有效应对