快手算法逻辑(设计简单有效的强化学习探索算法，快手有新思路)

金融界商

2022-04-20 18:23:24

机器心脏柱

机器心脏编辑部

本文来自德克萨斯A&M大学和快手提出了一种简单有效的搜索算法，为随机环境下的搜索问题提供了有效的解决方案。

论文：https://openreview.net/forum?id=MtEE0CktZht

代码：https://github.com/daochenzha/rapid

探索是强化学习的经典问题。一个好的探索策略可以极大地提高强化学习的效率，节约计算资源。

例如，在下图所示的迷宫中，代理（红色三角形）需要从第一个房间开始，逐个打开通往下一个房间的门，最后到达终点（绿色正方形）。代理人能得到的奖励很少，只有当他们到达终点时才能得到奖励。如果没有有效的探索，代理将不知道什么操作是合适的，因此很容易陷入前几个房间，陷入局部优化。

研究现状与分析

处理该行业勘探问题最常见的方法是内部奖励[2][3]。这种方法的基本逻辑是为首次发现的状态设计更大的奖励，以鼓励代理探索未知区域。例如，对于上面的迷宫问题，我们可以为我们没有进入的房间设计更大的奖励，这样代理就可以自发地探索更多的房间。然而，现有的内部奖励方法在随机环境中的效果会大大降低。

例如，我们考虑为每个新一轮生成完全不同的房间场景。下图显示了四个不同的回合。每一轮的房间结构都不同。几乎特工遇到的每个房间以前都从未见过。内部奖励机制很难区分好探索和坏探索。因此，我们需要新的算法来处理环境的随机性问题。随机环境可以更好地模拟许多实际问题，如股票交易、推荐系统、机器人控制等。

为了解决这个问题，本文提出了一种新的解决方案排序算法（the剧集排名，简称rapid）。

圆形排序算法

如下图所示，研究人员提出了一种机制，对每一轮的探索行为进行评分和排序，以选择良好的探索行为。

对于每轮生成的数据，该算法从三个不同维度对探索行动进行评分。从当地报道的角度打分。例如，在上面的迷宫中，研究人员希望算法能够探索更多的房间，因此研究人员在访问更多房间的回合中得分更高。从全球角度来看，研究人员希望尝试在每一轮中访问不同的国家。最后，该算法考虑了外部奖励的大小。在这个迷宫般的环境中，更好的外部奖励往往意味着更好的探索。

为了更好地利用这些良好的探索行为，本研究设计了一个简单的缓冲区来临时存储一批得分最高的数据。然后，该算法使用模仿学习来重现这些更好的探索行为。例如，如果一个回合访问多个房间，算法将通过模仿学习重现这种良好的探索行为，从而间接鼓励代理探索更多房间。

轮排序算法可以有效地处理环境的随机性。首先，轮排名算法在不关注特定状态的情况下对整个轮进行评分。这种整体行为对随机性更具鲁棒性。其次，缓冲机制可以保存和重用一些好的探索行为，因此可以多次学习一个好的回合，另一方面提高了算法的效率。

随机环境下轮排序算法的效果

为了验证轮排序算法的有效性，本研究进行了大量实验。在第一组实验中，该研究考虑了多个不同难度的迷宫，这些迷宫来自Minigrid[4]：

研究人员将轮排序算法与SOTA探索算法进行了比较。结果如下（rapid是本研究提出的轮排序算法）：

这些环境中的数字（sx-ry）代表迷宫中房间的大小和数量。它们越大，环境就越难探索。实验结果表明，在困难环境下，轮排序方法的性能明显优于现有方法。例如，在multiroom-n7-s8上，圆形排序算法的学习速度比现有方法快十倍以上。在keycorridor-s4-r3上，圆形排序算法是唯一有效的方法。

在第二组实验中，研究考虑了一个3D迷宫，如下图所示。代理看到的是第一人称视角的图片。同样，迷宫的结构在每一轮中都是随机生成的。在这样的环境中，代理需要学习如何探索原始图片中的信息。

实验表明，轮排序算法明显优于现有方法，表明该算法仍然适用于原始图像：

快手和抖音的直播带货选品逻辑

轮排序算法在非随机环境中的作用

在第三组实验中，研究人员探索了该算法是否可以用于机器人控制。如下图所示，代理需要操作机器人来完成特定任务，如向前移动、跳跃、保持平衡等。

实验结果表明，在以下非随机环境中，轮排序算法仍然具有良好的效果：

总结

本研究为强化学习探索问题提供了新的解决方案。与以往基于内部奖励的方法不同，轮排序算法记录了良好的探索行为，然后通过模仿学习鼓励agent探索。初步结果表明，该方法具有很好的效果，尤其是在随机环境下。[1]Berner、Christopher等"；Dota2与大规模深度强化学习34;arXiv预印本arXiv:1912.06680（2019）。[2]Pathak、迪帕克等"；好奇心驱动的自我监督预测探索34;2017年theIEEE计算机视觉和模式识别研讨会论文集。[3]伯达、Yuri等"；通过随机网络蒸馏进行探索34;学习表征国际会议。2018年，骑士博伊斯维特、Maxime、Lucas、谢廷峰和苏曼伙伴"；openai健身房的简约gridworld环境34;GitHub存储库（2018年）。

快手和抖音的直播带货选品逻辑

快手算法逻辑(设计简单有效的强化学习探索算法，快手有新思路)

您可以还会对下面的文章感兴趣

相关文章：