Learning to summarize from human feedback

news/2024/5/19 0:31:59 标签: 机器学习, 深度学习, 强化学习

Abstract

  • 人工参考总结以及 ROUGE 指标只是我们真实关心的目标(总结质量)的粗略代表。
  • 通过优化人工偏好来显著提升总结质量
  • 使用大量高质量的人类比较来训练一个模型来预测人类偏好的总结
  • 使用这个模型作为奖励函数对总结策略进行强化学习微调
  • 我们模型的效果在 TL;DR 数据集上显著超过了人工参考总结和仅使用有监督微调但大的多的模型,并且能够泛化到 CNN/DM 上得到和人工参考相当的效果而不需任何专门的微调

2 Related work

我们的工作与 Ziegler et al., 2019 的工作非常相似,他们也是训练 Transformer 模型来优化人工反馈。

  • 与我们不同的是,他们是以在线方式训练并且发现得到的模型是高度抽取式的。
  • 和他们相比,我们使用了更大的模型以批量化的方式收集人类反馈,并且做了一些算法上的修改
    • 例如分开策略和价值网络(separating the policy and value networks)。

人工偏好也在其他领域被作为奖励信号来训练模型,例如<


http://www.niftyadmin.cn/n/5440602.html

相关文章

Python文件操作相关知识点(读取/写入数据)

1.open函数的定义 &#xff08;1&#xff09;open函数的简要概述 open&#xff08;filename&#xff09;函数接受一个参数——要打开文件的名称&#xff0c;Python在当前执行的文件所在的目录中查找指定的文件。并返回一个表示文件的对象。 open&#xff08;&#xff09;函数…

5.2.1、【AI技术新纪元:Spring AI解码】OpenAI Embeddings

OpenAI 嵌入模型 Spring AI 支持 OpenAI 的文本嵌入模型。OpenAI 的文本嵌入通过向量(浮点数列表)来衡量文本字符串的相关性。两个向量之间的距离衡量它们的相关性。较小的距离表明高度相关,较大的距离表明低度相关。 先决条件 你需要创建一个与 OpenAI 的 API 交互的账户…

【C++】将坐标点写入到txtx文本,将坐标点写入到 excel表格

文章目录 1 将坐标点写入到txtx文本2 写入到 excel表格有自动以坐标点,需要存储 // 定义自定义的坐标点类型 CPosition struct CPosition {double x;double y; };CPosition* testpt = new CPosition[num]; <

逆序数据建立链表

本题要求实现一个函数&#xff0c;按输入数据的逆序建立一个链表。 函数接口定义&#xff1a; struct ListNode *createlist(); 函数createlist利用scanf从输入中获取一系列正整数&#xff0c;当读到−1时表示输入结束。按输入数据的逆序建立一个链表&#xff0c;并返回链表…

Hive面试重点

文章目录 1.简述hive读写文件机制2. hive和传统数据库之间的区别 1.简述hive读写文件机制 Hive 读写文件的机制主要涉及到数据的导入和导出&#xff0c;以及数据在 Hadoop 分布式文件系统&#xff08;HDFS&#xff09;中的存储和管理。 数据导入&#xff1a; Hive 可以从多种数…

富格林:亏损总结正规经验预防

富格林悉知&#xff0c;在现货黄金投资中亏损是投资者最不愿意看到的&#xff0c;想要避免亏损&#xff0c;在进入市场之前应该做好基础知识的学习&#xff0c;对亏损案例进行分析深剖其中的规律和特征&#xff0c;从而运用正规的学习方法经验规避风险。以下总结几点正规的做单…

图像分割在医学影像中的应用

图像分割在医学影像中是一个重要的研究领域&#xff0c;它涉及将医学图像分成若干部分或区域&#xff0c;以便更好地分析和理解图像中的信息。以下是图像分割在医学影像中的一些主要应用&#xff1a; 疾病诊断&#xff1a; 肿瘤检测&#xff1a;通过图像分割可以准确地识别和分…

如何处理网络危机公关?处理舆情四个要点

前面我们分享了网络舆情处置的方法和思路&#xff0c;但只有思路和方法不一定能做好舆情公关&#xff0c;这里小马识途营销顾问再强调下网络舆情处置成败的几个要点。 1、及时处理 当舆情发生时&#xff0c;企业进行舆情优化需要立刻调查清楚事件的起因和发展情况&#xff0c;迅…