【推荐系统论文】推荐系统的监督优势 Actor-Critic

news/2024/5/18 23:06:24 标签: 机器学习, 推荐系统, 强化学习
  • 文章标题:Supervised Advantage Actor-Critic for
    Recommender Systems
  • 发表时间:2022

摘要

  • 通过奖励信号将基于会话或顺序的推荐作为强化学习 (RL) 是朝着最大化累积利润的推荐系统 (RS) 的一个有前途的研究方向。 然而,由于策略外训练、巨大的动作空间和缺乏足够的奖励信号等挑战,在 RS 设置中直接使用 RL 算法是不切实际的。 最近用于 RS 的 RL 方法试图通过将 RL 和(自)监督顺序学习相结合来应对这些挑战,但仍然存在一定的局限性。 例如,由于缺乏负奖励信号,Q 值的估计倾向于偏向正值。 此外,Q 值还很大程度上取决于序列的特定时间戳。
  • 为了解决上述问题,我们提出了用于训练 RL 组件的负采样策略,并将其与监督顺序学习相结合。 我们将此方法称为监督负 Q 学习 (SNQN)。 基于采样(消极)动作(项目),我们可以计算积极动作相对于平均情况的“优势”,这可以进一步用作学习监督顺序部分的归一化权重。 这导致了另一个学习框架:监督优势演员评论家(SA2C)。 我们用四个最先进的顺序推荐模型实例化 SNQN 和 SA2C,并在两个真实世界的数据集上进行实验。 实验结果表明,所提出的方法比最先进的监督方法和现有的自监督强化学习方法取得了显着更好的性能。 代码将开源。

http://www.niftyadmin.cn/n/1399123.html

相关文章

【Transformer论文】通用代理

文章题目:A Generalist Agent 摘要 受大规模语言建模进展的启发,我们应用了类似的方法来构建超越文本输出领域的单一通才代理。 代理,我们称之为 Gato,作为一种多模式、多任务、多实施的通才策略工作。 具有相同权重的相同网络可…

【Transformer论文】CMKD:用于音频分类的基于 CNN/Transformer 的跨模型知识蒸馏

文献题目:CMKD: CNN/Transformer-Based Cross-Model Knowledge Distillation for Audio Classification文献时间:2022 摘要 音频分类是一个活跃的研究领域,具有广泛的应用。 在过去十年中,卷积神经网络 (CNN) 已成为端到端音频分…

【计算机视觉】有限标签的场景图预测

文献题目:Scene Graph Prediction with Limited Labels 摘要 诸如视觉基因组之类的视觉知识库为计算机视觉中的众多应用提供了支持,包括视觉问答和字幕,但存在稀疏、不完整的关系。迄今为止,所有场景图模型都仅限于在一小部分视…

【知识图谱论文】知识图谱的多模态数据增强表示学习

论文题目:Multimodal Data Enhanced Representation Learning for Knowledge Graphs论文期刊: IJCNN论文时间:2019 摘要 知识图谱或知识库在人工智能领域的各种应用中发挥着重要作用。在知识图谱的研究和应用中,知识表示学习是基…

【知识图谱论文】稀疏知识图上多跳推理的动态预期与补全

Article 文章题目:Dynamic Anticipation and Completion for Multi-Hop Reasoning over Sparse Knowledge Graph代码:https://github.com/THU-KEG/DacKGR 摘要 近年来,多跳推理得到了广泛的研究,以寻求一种有效且可解释的知识图…

【强化学习论文】柔性行为综合的扩散规划

文献题目:Planning with Diffusion for Flexible Behavior Synthesis发表时间:2022 摘要 基于模型的强化学习方法通常只将学习用于估计近似动力学模型,将其余的决策工作卸载给经典的轨迹优化器。虽然概念上很简单,但这种组合有许…

5G 技术特点与应用

5G技术与应用场景 ​ 1、概述 ​ 随着时代的快速发展,科学技术也不断创新以及改进,其中通信技术发展尤为迅速,为移动通信技术 的更新换代提供条件支持。目前为止,通信领域最先进的技术是5G移动通信技术,预计会在2020年广泛使用,…

一 计算机单位与进制解析

一 计算机单位与进制解析 概述 我们一般说的百兆、千兆的单位是bps(比特率),我们的网卡光纤的传输速度是百兆单位是(100mbps)的意思,而在我们实际应用中使用的传输单位是字节/秒(byte/S) 1、单位换算类表 8bit1byte 1024byte…