动态

当前位置/ 首页/ 动态/ 正文

索尼的新AI驱动程序在Gran Turismo中实现了可靠的超人比赛时间

导读 从国际象棋到围棋再到扑克,人工智能代理在许多游戏中都击败了人类。现在,这些机器可以在经典赛车游戏系列Gran Turismo中获得新的高分。

从国际象棋到围棋再到扑克,人工智能代理在许多游戏中都击败了人类。现在,这些机器可以在经典赛车游戏系列Gran Turismo中获得新的高分。

索尼今天宣布,其研究人员已经开发出一款名为GT Sophy的 AI 车手,它是“可靠的超人”——能够在Gran Turismo Sport中连续几圈击败顶级人类车手。你可能认为这是一个简单的挑战。毕竟,赛车不只是速度和反应时间的问题,因此对机器来说很容易掌握吗?但视频游戏赛车和人工智能领域的专家都表示,GT Sophy 的成功是一项重大突破,代理人表现出对战术和战略的掌握。

斯坦福汽车教授 J. Christian Gerdes 在科学杂志《自然》的一篇社论中写道:“在面对面的竞争中如此熟练地超越人类司机代表了人工智能的一项里程碑式的成就。“GT Sophy 在赛道上的成功表明,有朝一日,神经网络在自动驾驶汽车软件中的作用可能比现在更大。”

GT Sophy 使用一种称为强化学习的方法进行训练:本质上是一种试错形式,其中 AI 代理被扔到一个没有指令的环境中,并因达到某些目标而获得奖励。在 GT Sophy 的案例中,索尼的研究人员表示,他们必须非常仔细地设计这种“奖励功能”:例如,微调碰撞惩罚,以塑造一种足够激进的驾驶风格,从而赢得胜利,但并没有领先。人工智能只是在路上欺负其他赛车手。

使用强化学习,GT Sophy 只需几个小时的训练就能够在赛道上导航,并且“在一两天内”比其训练数据集中 95% 的车手更快。经过大约 45,000 小时的总训练,GT Sophy 能够在三个赛道上取得超人的表现。(对于Gran Turismo Sport的玩家来说,有问题的赛道是 Dragon Trail Seaside、Lago Maggiore GP 和 Circuit de la Sarthe。)

在针对人类测试 AI 代理时,一个常见的问题是机器具有许多与生俱来的优势,例如完美的回忆和快速的反应时间。索尼的研究人员指出,与人类玩家相比,GT Sophy 确实具有一些优势,例如带有赛道边界坐标的精确路线地图和“关于每个轮胎的负载、每个轮胎的侧偏角和其他车辆状态的精确信息”。但是,他们说,它们占了两个特别重要的因素:动作频率和反应时间。

GT Sophy 的输入上限为 10 Hz,而理论上的最大人工输入为 60 Hz。研究人员写道,这有时会导致人类驾驶员在高速行驶时表现出“更加流畅的动作”。在反应时间方面,GT Sophy 能够在 23-30 毫秒内对比赛环境中的事件做出反应,这比估计的职业运动员的 200-250 毫秒的最高反应时间要快得多。作为补偿,研究人员添加了人工延迟,以 100 毫秒、200 毫秒和 250 毫秒的反应时间训练 GT Sophy。但正如他们发现的那样:“所有这三项测试都达到了超人的单圈时间。”

GT Sophy 针对三位顶级电子竞技车手进行了测试:Emily Jones、Valerio Gallo 和 Igor Fraga。尽管没有一个人类能够在计时赛中击败人工智能,但他们的比赛让他们发现了新的战术。

“看到 AI 会走的线真的很有趣,在某些角落我会向外扩大然后切入,AI 一直在进入,所以我学到了很多关于线的知识, ”电子竞技车手艾米丽·琼斯(Emily Jones)在《自然》(Nature)报纸上的一篇感言中说。“例如,在进入 1 号弯时,我的刹车比 AI 晚,但 AI 会比我获得更好的出口,并将我击败到下一个弯道。直到我看到人工智能时我才注意到这一点,然后就像是,‘好吧,我应该这样做。’”

索尼表示,它目前正在努力将 GT Sophy 整合到未来的Gran Turismo游戏中,但没有提供何时发生这种情况的时间表。