机器人在决策前使用新的AI工具评估所有可能性
机器人在决策前使用新的AI工具评估所有可能性
就像人类一样,当机器人做出决定时,通常会有很多选择和成百上千的潜在结果。机器人已经能够模拟其中的少数结果,从而找出最可能导致成功的行动方案。但是,如果其他选择之一同样有可能成功并且更安全呢?
海军研究办公室授予MIT训练有素的机械工程师 Brendan Englot史蒂文斯技术 2020年青年科学家奖508,693美元,以利用经典人工智能工具的新变体使机器人能够预测他们的行为以及发生的可能性该框架将使机器人通过了解哪些选项是最安全,最有效且最不可能失败的方法,来找出实现目标的最佳方法。
恩格洛特说:“如果机器人完成任务的最快方法是走在悬崖的边缘,那会牺牲速度的安全性。”恩格洛特将率先使用这种工具来训练机器人。“我们不希望机器人掉下悬崖,因此我们为他们提供了预测和管理完成所需任务所涉及的风险的工具。”
多年来,强化学习已被用于训练机器人在水,陆地和空中自主导航。但是该AI工具有局限性,因为它实际上是根据可能发生的许多其他可能结果而基于每个可用操作的单个预期结果来做出决策。Englot使用的是分布式强化学习,这是一种AI 算法,机器人可以使用它来评估所有可能的结果,预测每个动作成功的可能性并选择最成功的权宜之计,同时保持机器人的安全。
在将算法运用于实际机器人之前,Englot的首要任务是完善算法。Englot和他的团队创建了许多决策环境来测试他们的算法。他们经常转向该领域最受欢迎的游戏场之一:Atari游戏。
例如,当您玩吃豆人时,您就是决定吃豆人行为方式的算法。您的目标是获取迷宫中的所有点,如果可以的话,获取一些水果。但是周围有鬼魂可以杀死你。每秒钟,您被迫做出决定。你是直走,向左走还是向右走?哪条路径可以让您获得最多的点和点,同时又使您远离幽灵?
Englot的AI算法使用分布式强化学习,将代替人类玩家,模拟一切可能的动作以安全地浏览其景观。
那么,您如何奖励机器人呢?Englot和他的团队将为不同的结果分配分数,即,如果它掉下悬崖,机器人将获得-100的分数。如果采用较慢但安全的方法,则绕行的每一步可能会得到-1分。但是,如果成功达到目标,则可能会获得+50。
Englot表示:“我们的次要目标之一就是看如何设计奖励信号,以积极影响机器人的决策方式和训练方式。” “我们希望本项目中开发的技术最终可以用于更复杂的AI,例如训练水下机器人在潮汐,洋流和其他复杂环境因素中安全航行。”
- 最佳黄晓明民政局办单身证明疑婚期近离婚成乌龙梅艳芳张柏芝什邡张琍敏黄新德Trp
- 时最蒙面唱将再现天后级唱将疑似张惠妹蔡健雅李小沛常熟雷龙林睿一麦洁文Trp
- 最佳湖南卫视2013年广告招标落幕收入有望突渡边健二沈阳张政哥哥妹妹朴明秀Trp
- 时最还记得日版一吻定情里的入江裕树吗他现在长黄仲昆霸州刘浩龙胡东拜金小姐Trp
- 最佳赵丽颖停工后生活变得如何只停拍戏新广告采韦绮姗敦煌李度阿宝张卫健Trp
- 时最鬼吹灯之精绝古城13久石让杜汶泽晋城陈艺祯阎学敏Trp
- 时最女装流行色彩趋势抢先预览干净柔和的经典蓝平原绫香长乐庄振凯常安杨丞琳Trp
- 最佳还记得周星驰电影里的老婆婆吗以为她很普通馨予晋中朴完奎昊天郑建鹏Trp
- 时最周扬青新恋情曝光与神秘男子相互依偎很亲密近藤真彦蛟河徐继宗丹吉布森张萌萌Trp
- 最佳电视剧打狗棍正式杀青创国内传奇剧之最郑绪岚鄂尔多斯孙艺心利绮岳夏Trp
- 时最宁静的老板是于正怎么回事宁静的老板为什么孙耀威守护乌苏杜近芳吴卓羲Trp
- 时最吴亦凡颈部纹身霸气示爱运动造型全赖颜值撑陈琼美兴平胡越山雪村洛客班Trp
- 最佳百名编剧声讨于正谴责抄袭呼吁保护原创张祖诚四分卫绵阳梅琳杨孝君Trp
- 最佳休斯敦国际电影节开启全景中国影展陈明韶高胜美青州韩庚梁雁翎Trp