快手算法逻辑(设计简单有效的强化学习探索算法,快手有新思路)

机器心脏柱

机器心脏编辑部

本文来自德克萨斯A&M大学和快手提出了一种简单有效的搜索算法,为随机环境下的搜索问题提供了有效的解决方案。

论文:https://openreview.net/forum?id=MtEE0CktZht

代码:https://github.com/daochenzha/rapid

探索是强化学习的经典问题。一个好的探索策略可以极大地提高强化学习的效率,节约计算资源。

例如,在下图所示的迷宫中,代理(红色三角形)需要从第一个房间开始,逐个打开通往下一个房间的门,最后到达终点(绿色正方形)。代理人能得到的奖励很少,只有当他们到达终点时才能得到奖励。如果没有有效的探索,代理将不知道什么操作是合适的,因此很容易陷入前几个房间,陷入局部优化。

研究现状与分析

处理该行业勘探问题最常见的方法是内部奖励[2][3]。这种方法的基本逻辑是为首次发现的状态设计更大的奖励,以鼓励代理探索未知区域。例如,对于上面的迷宫问题,我们可以为我们没有进入的房间设计更大的奖励,这样代理就可以自发地探索更多的房间。然而,现有的内部奖励方法在随机环境中的效果会大大降低。

例如,我们考虑为每个新一轮生成完全不同的房间场景。下图显示了四个不同的回合。每一轮的房间结构都不同。几乎特工遇到的每个房间以前都从未见过。内部奖励机制很难区分好探索和坏探索。因此,我们需要新的算法来处理环境的随机性问题。随机环境可以更好地模拟许多实际问题,如股票交易、推荐系统、机器人控制等。

为了解决这个问题,本文提出了一种新的解决方案排序算法(the剧集排名,简称rapid)。

圆形排序算法

如下图所示,研究人员提出了一种机制,对每一轮的探索行为进行评分和排序,以选择良好的探索行为。

对于每轮生成的数据,该算法从三个不同维度对探索行动进行评分。从当地报道的角度打分。例如,在上面的迷宫中,研究人员希望算法能够探索更多的房间,因此研究人员在访问更多房间的回合中得分更高。从全球角度来看,研究人员希望尝试在每一轮中访问不同的国家。最后,该算法考虑了外部奖励的大小。在这个迷宫般的环境中,更好的外部奖励往往意味着更好的探索。

为了更好地利用这些良好的探索行为,本研究设计了一个简单的缓冲区来临时存储一批得分最高的数据。然后,该算法使用模仿学习来重现这些更好的探索行为。例如,如果一个回合访问多个房间,算法将通过模仿学习重现这种良好的探索行为,从而间接鼓励代理探索更多房间。

轮排序算法可以有效地处理环境的随机性。首先,轮排名算法在不关注特定状态的情况下对整个轮进行评分。这种整体行为对随机性更具鲁棒性。其次,缓冲机制可以保存和重用一些好的探索行为,因此可以多次学习一个好的回合,另一方面提高了算法的效率。

随机环境下轮排序算法的效果

为了验证轮排序算法的有效性,本研究进行了大量实验。在第一组实验中,该研究考虑了多个不同难度的迷宫,这些迷宫来自Minigrid[4]:

研究人员将轮排序算法与SOTA探索算法进行了比较。结果如下(rapid是本研究提出的轮排序算法):

这些环境中的数字(sx-ry)代表迷宫中房间的大小和数量。它们越大,环境就越难探索。实验结果表明,在困难环境下,轮排序方法的性能明显优于现有方法。例如,在multiroom-n7-s8上,圆形排序算法的学习速度比现有方法快十倍以上。在keycorridor-s4-r3上,圆形排序算法是唯一有效的方法。

在第二组实验中,研究考虑了一个3D迷宫,如下图所示。代理看到的是第一人称视角的图片。同样,迷宫的结构在每一轮中都是随机生成的。在这样的环境中,代理需要学习如何探索原始图片中的信息。

实验表明,轮排序算法明显优于现有方法,表明该算法仍然适用于原始图像:

快手和抖音的直播带货选品逻辑

轮排序算法在非随机环境中的作用

在第三组实验中,研究人员探索了该算法是否可以用于机器人控制。如下图所示,代理需要操作机器人来完成特定任务,如向前移动、跳跃、保持平衡等。

实验结果表明,在以下非随机环境中,轮排序算法仍然具有良好的效果:

总结

本研究为强化学习探索问题提供了新的解决方案。与以往基于内部奖励的方法不同,轮排序算法记录了良好的探索行为,然后通过模仿学习鼓励agent探索。初步结果表明,该方法具有很好的效果,尤其是在随机环境下。[1]Berner、Christopher等";Dota2与大规模深度强化学习34;arXiv预印本arXiv:1912.06680(2019)。[2]Pathak、迪帕克等";好奇心驱动的自我监督预测探索34;2017年theIEEE计算机视觉和模式识别研讨会论文集。[3]伯达、Yuri等";通过随机网络蒸馏进行探索34;学习表征国际会议。2018年,骑士博伊斯维特、Maxime、Lucas、谢廷峰和苏曼伙伴";openai健身房的简约gridworld环境34;GitHub存储库(2018年)。



您可以还会对下面的文章感兴趣

使用微信扫描二维码后

点击右上角发送给好友