机器人在决策前使用新的AI工具评估所有可能性

2022-10-19

就像人类一样，当机器人做出决定时，通常会有很多选择和成百上千的潜在结果。机器人已经能够模拟其中的少数结果，从而找出最可能导致成功的行动方案。但是，如果其他选择之一同样有可能成功并且更安全呢？

海军研究办公室授予MIT训练有素的机械工程师 Brendan Englot史蒂文斯技术 2020年青年科学家奖508,693美元，以利用经典人工智能工具的新变体使机器人能够预测他们的行为以及发生的可能性该框架将使机器人通过了解哪些选项是最安全，最有效且最不可能失败的方法，来找出实现目标的最佳方法。

恩格洛特说：“如果机器人完成任务的最快方法是走在悬崖的边缘，那会牺牲速度的安全性。”恩格洛特将率先使用这种工具来训练机器人。“我们不希望机器人掉下悬崖，因此我们为他们提供了预测和管理完成所需任务所涉及的风险的工具。”

多年来，强化学习已被用于训练机器人在水，陆地和空中自主导航。但是该AI工具有局限性，因为它实际上是根据可能发生的许多其他可能结果而基于每个可用操作的单个预期结果来做出决策。Englot使用的是分布式强化学习，这是一种AI 算法，机器人可以使用它来评估所有可能的结果，预测每个动作成功的可能性并选择最成功的权宜之计，同时保持机器人的安全。

在将算法运用于实际机器人之前，Englot的首要任务是完善算法。Englot和他的团队创建了许多决策环境来测试他们的算法。他们经常转向该领域最受欢迎的游戏场之一：Atari游戏。

例如，当您玩吃豆人时，您就是决定吃豆人行为方式的算法。您的目标是获取迷宫中的所有点，如果可以的话，获取一些水果。但是周围有鬼魂可以杀死你。每秒钟，您被迫做出决定。你是直走，向左走还是向右走？哪条路径可以让您获得最多的点和点，同时又使您远离幽灵？

Englot的AI算法使用分布式强化学习，将代替人类玩家，模拟一切可能的动作以安全地浏览其景观。

那么，您如何奖励机器人呢？Englot和他的团队将为不同的结果分配分数，即，如果它掉下悬崖，机器人将获得-100的分数。如果采用较慢但安全的方法，则绕行的每一步可能会得到-1分。但是，如果成功达到目标，则可能会获得+50。

Englot表示：“我们的次要目标之一就是看如何设计奖励信号，以积极影响机器人的决策方式和训练方式。” “我们希望本项目中开发的技术最终可以用于更复杂的AI，例如训练水下机器人在潮汐，洋流和其他复杂环境因素中安全航行。”

看过的网友还看了