Article

作者：Chao Yu, Jiming Liu, Shamim Nemati
文献题目：医疗保健中的强化学习：综述
文献时间：2020
文献链接：https://arxiv.org/abs/1908.08796

摘要

作为机器学习的一个子领域，强化学习 (RL) 旨在通过使用与世界的交互经验和评估反馈来增强人们的行为决策能力。与通常依赖于一次性、穷举和监督奖励信号的传统监督学习方法不同，强化学习同时处理具有采样、评估和延迟反馈的顺序决策问题。这种独特的特征使 RL 技术成为在各种医疗保健领域开发强大解决方案的合适候选者，在这些领域，诊断决策或治疗方案通常以长时间和顺序程序为特征。本次调查讨论了 RL 技术在医疗保健领域的广泛应用，以便为研究界提供对理论基础、支持方法和技术、现有挑战以及这一新兴范式的新见解的系统理解。首先从高效和代表性的方向简要研究 RL 研究的理论基础和关键技术，然后我们概述了 RL 在医疗保健领域的应用，包括慢性病和重症监护的动态治疗方案、非结构化和结构化临床的自动化医疗诊断数据，以及渗透到医疗保健系统许多方面的许多其他控制或调度域。最后，我们总结了当前研究中的挑战和未解决的问题，并指出了一些潜在的解决方案和未来研究的方向。

背景

在海量多模态数据日益增加的可用性以及开发的计算模型和算法的推动下，人工智能技术在医疗保健中的作用在过去十年中迅速增长 [1]、[2]、[3]、[4]。这一新兴趋势促使人们对在各种医疗保健应用中提出的先进数据分析方法和机器学习方法越来越感兴趣 [5]、[6]、[7]、[8]、[9]。作为机器学习的一个子领域，强化学习（RL）近年来在泛化、表示和效率方面取得了巨大的理论和技术成果，使其越来越适用于游戏、机器人控制、金融等现实生活问题。以及商业管理、自动驾驶、自然语言处理、计算机视觉、生物数据分析和艺术创作，仅举几例 [10]、[11]、[12]、[13]、[14]。
在 RL 问题中，代理根据其当前状态在每个时间步选择一个动作，并从环境中接收评估反馈和新状态。代理的目标是学习一个最佳策略（即从状态到动作的映射），以最大化它随时间获得的累积奖励。因此，RL 中的代理不会直接收到关于他们应该采取哪些行动的指令，而是他们必须通过与环境的反复试验来了解哪些行动是最好的。这种自适应闭环特征使 RL 不同于传统的回归或分类监督学习方法，其中必须提供正确标签的列表，或者与旨在寻找隐藏结构的无监督学习方法降维或密度估计不同在示例数据的集合中 [11]。此外，与其他传统的基于控制的方法相比，RL 不需要很好地表示环境的数学模型，而是直接根据经验制定控制策略，以在学习过程中预测状态和奖励。由于 RL 的设计是让代理控制器与系统交互，未知和时变动态以及不断变化的性能要求可以由控制器自然地解释[15]。最后，RL 特别适用于具有固有时间延迟的系统，在这些系统中，决策是在没有立即了解有效性的情况下执行的，而是通过长期的未来奖励来评估的。
上述特征自然使 RL 成为在各种医疗保健领域构建有效政策的有吸引力的解决方案，其中决策过程通常以长时间或顺序过程为特征 [16]。通常，医学或临床治疗方案由一系列决策组成，以根据当前健康状况和既往治疗史确定某个时间点的治疗类型、药物剂量或复查时间等决策过程。个体患者，以促进患者的长期利益为目标。与从平均人群反应得出治疗方案的传统随机对照试验中的常见程序不同，RL 可以量身定制，以实现对个体患者的精确治疗，这些患者由于疾病严重程度、个人特性和药物敏感性。此外，RL 能够仅使用先前的经验找到最佳策略，而无需任何有关生物系统数学模型的先验知识。这使得 RL 比医疗保健领域中许多现有的基于控制的方法更具吸引力，因为由于非线性、变化和延迟的交互，通常很难甚至不可能为复杂的人体系统和对管理的治疗的反应建立准确的模型在治疗和人体之间。
迄今为止，大量理论或实验研究已将 RL 技术和模型应用于各种医疗保健领域，在许多情况下实现了超过替代技术的性能。本次调查旨在概述此类成功的 RL 应用，涵盖慢性病和重症监护中的自适应治疗方案、自动化临床诊断以及许多其他医疗保健领域，例如临床资源分配/调度和优化过程控制。我们还讨论了推动 RL 在医疗保健中进一步成功应用所必需的挑战、开放性问题和未来研究方向。通过这一点，我们希望这项调查可以为研究界提供对这一新兴范式的基础、支持方法和技术、挑战和新见解的系统理解。第二部分从两个主要方向对 RL 研究的理论基础和关键技术进行了结构化的总结：主要旨在通过充分利用过去的经验或知识来提高学习效率的有效方向，以及专注于RL 中的建设性或关系表示问题。然后，第 III 节给出了 RL 在医疗保健中的应用领域的全局图，在以下各节中更详细地讨论了每个领域。第四节讨论了慢性病和重症监护的动态治疗方案，第五节描述了使用结构化或非结构化医疗数据的自动化医疗诊断。此外，VI 还讨论了其他更广泛的应用领域，包括健康资源分配和调度、优化过程控制、药物发现和开发以及健康管理。第七节描述了当前研究中的几个挑战和悬而未决的问题。最后，第八节讨论了未来研究中必要的潜在方向。为方便起见，表 I 和表 II 分别总结了 RL 和医疗保健领域的主要首字母缩略词。

缩略语	描述
AMP	贫血管理协议
BCSC	乳腺癌监测联盟
CATIE	临床抗精神病药物干预有效性试验
CBASP	心理治疗认知行为分析系统
CIBMTR	国际血液和骨髓移植研究中心
CT	计算机断层扫描
DTRs	动态治疗制度
EEG	脑电图
ESA	红细胞生成刺激剂
EPO	内源性促红细胞生成素
FES	功能性电刺激
HGB	血红蛋白
ICU	重症监护室
MAP	平均动脉压
MDD	重度抑郁症
MIMIC	重症监护多参数智能监护
MRI	磁共振图像
NSCLC	非小细胞肺癌
ODE	常微分方程
PK/PD	药代动力学/药效学
SC	症状检查
SMARTs	顺序多重分配随机试验
STAR*D	缓解抑郁症的有序治疗替代方案
STI	结构化治疗中断
SUD	物质使用障碍
TREC-CDS	文本检索会议-临床决策支持
UI	超声图像

强化学习的理论基础和关键技术

本节简要介绍了 RL 中的理论模型、基本解决方案和高级技术。图 1 提供了概述强化学习的主要组成部分和子领域研究主题的图表。

强化学习关键技术

本节讨论当代 RL 中使用的一些关键技术，其中大部分技术可以根据前面一节中定义的框架和解决方案来理解，然而，这些新技术强调更复杂地使用样本、世界模型和以前任务的学习知识，以提高效率，以及在 RL 问题中应该表示什么以及应该如何表示事物。需要注意的是，这两种技术的分类并不相互排斥，这意味着也使用了一些表示技术来提高学习效率，反之亦然。
1)高效技术：使用高效技术的目的是在强化学习方法的收敛率、样本效率、计算成本或泛化能力等方面提高学习性能。这种改进可以通过使用不同层次的知识来实现：经验层次的技术侧重于利用过去的经验进行更稳定和数据高效的学习；模型级技术侧重于构建和规划环境模型，以提高样本效率；而任务级技术旨在将学习经验从过去的任务推广到新的相关任务。
- a) 经验层面：
  - 在传统的纯在线 TD 学习方法（如 Q-learning 和 SARSA）中，agent 会在与环境交互的每一步立即对价值函数进行类似 DP 的更新，然后忽略之后经历了状态转换元组。尽管保证收敛并在解决简单的玩具问题方面取得了巨大成功，但当应用于具有更大且可能连续设置的更现实的系统时，这种本地更新会带来几个严重的性能问题。由于每个经验元组仅用于一次更新，然后立即被遗忘，因此需要大量样本才能实现最佳解决方案，从而导致所谓的探索开销问题。此外，已经表明，将函数逼近方法与纯在线 TD 方法直接结合会导致性能不稳定甚至发散 [30]、[31]。这些低效率和不稳定性问题在真实环境中变得更加明显，尤其是在医疗保健系统中，患者与环境之间的物理交互需要更有效的采样和稳定的学习方法。
  - 体验级技术专注于如何充分利用过去的学习经验以实现更稳定和高效的学习，并且是现代 Batch RL (BRL) [39] 提案背后的主要推动力。在 BRL 中，使用了两种基本技术：将经验存储在缓冲区中并像新的一样重用它（解决低效率问题的经验重放的想法），以及通过使用监督将 DP 步骤与函数逼近步骤分开学习在采样经验上拟合函数逼近器（拟合解决稳定性问题的想法）。文献中有几种著名的 BRL 方法，例如神经拟合 Q 迭代（NFQI [40]）的非线性逼近器案例、基于树的 FQI [41]，以及用于策略学习的鲁棒线性逼近技术，例如 Least -Squares 策略迭代（LSPI [42]）。正如稍后将发现的，这些 BRL 方法在临床决策中享有广泛而成功的应用，因为它们有望大大提高学习速度和近似精度，尤其是从有限数量的临床数据中。
- b) 模型级：与强调有效使用经验元组的经验级技术不同，模型级技术尝试建立环境模型（在转换和奖励函数方面），然后从环境模型大致正确时。这种基于模型的 RL (MRL) 方法与无模型 RL 方法（例如 TD 方法或 MC 方法）有很大不同，这些方法无需构建环境模型即可直接估计值函数 [43]。使用一些先进的探索策略和规划方法，例如 DP 或蒙特卡洛树搜索 (MCTS) [44]，MRL 方法通常能够快速学习准确的模型，然后使用该模型来规划多步动作。因此，MRL 方法通常比无模型方法具有更好的样本效率 [28]。
- c) 任务级别：更高任务级别的有效方法侧重于开发将知识从一组源任务转移到目标任务的方法。 Transfer RL (TRL) 使用转移的知识来显着提高目标任务的学习性能，例如，通过减少接近最佳性能所需的样本，或增加最终收敛水平 [45]。 Taylor 和 Stone [46] 通过五个转移维度对 TRL 方法进行了全面审查：源任务和目标任务如何不同（例如，在动作、状态、奖励或转换函数方面），如何选择源任务（例如，所有以前见过的任务，或只有一项由人类指定或自动修改的任务），如何定义任务映射（例如，由人类指定或从经验中学习），要转移哪些知识（从经验实例到更高级别的模型或规则），以及允许的 RL 方法（例如，MRL、PS 或 BRL）。
2）表征技术：与传统的机器学习研究仅仅关注函数逼近的特征工程不同，强化学习中的表征技术可以有更广阔的视野，不仅关注与函数相关的建设性或关系表征问题状态/动作、策略和价值函数的近似值，以及有关代理、任务或模型的更多外生方面 [12]。
- a) 值函数或策略的表示：
  - 许多传统的 RL 算法主要针对具有小的离散状态和动作空间的问题而设计，这些空间可以显式存储在表中。尽管存在固有的挑战，但将这些 RL 算法应用于连续或高维域会导致额外的困难。表示技术的一个主要方面是以更紧凑的形式表示策略和价值函数的结构，以有效地逼近解决方案，从而扩展到更大的领域。从广义上讲，可以分为三类近似方法 [31]：近似模型并在该近似模型上计算所需策略的模型近似方法（model-approximation）；近似值函数的值逼近方法可以推断出策略（value-approximation），以及直接在策略空间中搜索并更新该策略以逼近最优策略的策略逼近方法（policy-approximation），或者保持单独的、明确的值函数和策略的表示。
  - 值函数或策略可以使用线性或非线性函数近似表示进行参数化。而线性函数逼近更好理解，易于实现并且通常具有更好的收敛保证，但它需要关于领域特征的明确知识，并且还禁止特征之间交互的表示。相反，非线性函数近似方法不需要良好的信息特征，通常在实践中获得更好的准确性和性能，但收敛性保证较少。
  - RL 在解决现实世界复杂问题方面的一个显着成功是最近将深度神经网络集成到 RL [47]、[48]，促进了深度 RL (DRL) [12] 的一个新的蓬勃发展的研究领域。这一成功的一个关键因素是深度学习可以直接从输入数据中自动抽象和提取高级特征和语义解释，避免复杂的特征工程或针对单个任务的精细特征手工制作和选择 [49]。
- b) 奖励函数的表示：在一般 RL 设置中，奖励函数以评估标量信号的形式表示，该信号为学习代理编码一个单一的目标。尽管适用性广泛，但这种量化奖励函数不可避免地有其局限性。例如，现实生活中的问题通常同时涉及两个或多个目标，每个目标都有自己相关的奖励信号。这激发了多目标强化学习 (MORL)[50] 的新兴研究课题，其中政策必须尝试在不同目标之间进行权衡，以实现帕累托最优解。此外，在某些现实世界领域中，通常很难甚至不可能获得可以用数值奖励表示的反馈信号。相反，质量更好或更高的奖励信号可能很容易获得，因此可以由学习者直接使用。基于偏好的 RL (PRL) [51] 是一个结合 RL 和偏好学习 [52] 的新研究方向，使 RL 代理具备从各种排名函数表达的定性反馈中学习所需策略的能力。最后但并非最不重要的一点是，所有现有的 RL 方法都基于可用的反馈函数，无论是明确的数字形式还是定性形式。然而，当此类反馈信息不易获得或奖励函数难以手动指定时，则有必要考虑一种 RL 方法，通过该方法可以从一组可能的最佳轨迹中学习奖励函数，从而使奖励保持一致与观察到的行为。从观察到的行为中推导出奖励函数的问题被称为逆 RL (IRL) [53]、[54]，在过去几年中，研究人员对此越来越感兴趣。已经提出了许多 IRL 方法，包括最大熵 IRL [55]、学徒学习 [56]、使用高斯过程的奖励函数的非线性表示 [57] 和贝叶斯 IRL [58]。
- c) 任务或模型的表示：
  - 最近关于 RL 的许多研究都集中在以紧凑的方式表示任务或模型，以促进有效策略的构建。通过使用动态贝叶斯网络 (DBN) 来表示仅涉及某些状态变量集的状态之间的转换模型，并分解全局任务对单个变量或小变量集群的奖励。这种表示通常允许结构化 MDP 的表示大小呈指数级减小，但此类 MDP 的精确求解算法的复杂性也在表示大小上呈指数增长。已经提出了大量方法来使用 MDP 模型的分解表示来提高基于模型的 [60]、[61] 或无模型 RL 问题 [62] 的学习效率。一个更具挑战性的问题是如何在在线学习期间动态学习这种紧凑的结构 [63]。
  - 除了状态的分解表示外，更通用的方法是将大型复杂任务分解为更小的子任务集，这些子任务可以单独解决。 Hierar Chical RL (HRL) [64] 将层次方法形式化，该方法在子任务层次结构上使用抽象状态或动作来分解原始问题，从而可能降低其计算复杂性。 Hengst [65] 讨论了 HRL 中的各种概念和方法，包括可以从与域的交互中自动学习层次结构的算法。与专注于任务分层分解的 HRL 不同，关系 RL（RRL）[66] 为 RL 在根据对象及其关系明确建模的世界中提供了一种新的表示范式。 RRL 使用以明确方式表示对象和关系的富有表现力的数据结构，旨在概括或促进对具有相同或不同对象和关系的世界的学习。 RRL中的主要表示方法和技术已在[66]中进行了详细调查。
  - 最后但并非最不重要的一点是，部分可观察的 MDP (POMDP) 被广泛用于表示状态不完全可观察或观察有噪声时的模型。 POMDP 中的学习，表示为部分可观察 RL (PORL)，由于从观察到隐藏状态的映射引起的额外不确定性 [67]，可能相当困难。由于许多现实生活应用中的环境状态，特别是在医疗保健系统中，只能部分观察到，因此 PORL 成为一种合适的技术，可以在这种现实环境中导出有意义的策略。

RL 在医疗保健中的应用

由于其相对于传统机器学习、统计学习和基于控制的方法的独特特性，RL 相关模型和方法自几十年前以来已广泛应用于医疗保健领域。早期的焦点一直致力于使用药代动力学/药效学 (PK/PD) 模型 [68]、[69] 将 DP 方法应用于各种药物治疗决策问题。 Hu et al., [70] 使用 POMDP 来模拟麻醉给药的药物输注问题，并提出了有效的启发式方法来计算次优但有用的治疗策略。 Schaeffer等人[71] 讨论了 MDP 建模在医疗背景下的好处和相关挑战，并回顾了 MDP 的几个医学应用实例，例如球形红细胞增多症治疗和乳腺癌筛查和治疗。
近年来，随着在泛化、表示和效率方面的巨大理论和技术成就，强化学习方法迄今已成功应用于多个医疗领域。从广义上讲，这些应用领域可以分为三大类：慢性病或重症监护中的动态治疗方案、自动化医疗诊断，以及其他一般领域，如卫生资源分配和调度、优化过程控制、药物发现和开发，以及健康管理。图 2 提供了一个概述应用领域的图表，说明了该调查是如何按照该领域的三个广泛领域进行组织的。

动态治疗方案

医疗保健决策的目标之一是开发有效的治疗方案，以动态适应不同的临床状态并提高患者的长期利益。动态治疗方案 (DTR) [72]、[73]，也称为动态治疗策略 [74]、适应性干预 [75] 或适应性治疗策略 [76]，提供了一种新的范式，可以使开发过程自动化长期护理的个体患者的新有效治疗方案 [77]。 DTR 由一系列决策规则组成，用于根据个体患者的当前健康状况和既往治疗史确定某个时间点的行动过程（例如，治疗类型、药物剂量或复查时间）。与主要用作确认新开发疗法疗效的评估工具的传统随机对照试验不同，DTR 专门用于生成新的科学假设并在患者组之间或组内开发最佳治疗 [77]。例如，利用从顺序多重分配随机试验 (SMART) [78]、[79] 中生成的有效数据，可以推导出能够优化特别感兴趣的最终临床结果的最佳 DTR。
DTR 的设计可以看作是一个非常适合 RL 框架的顺序决策问题。 DTR 中的一系列决策规则等效于 RL 中的策略，而处理结果由奖励函数表示。 DTR 中的输入是一组患者的临床观察和评估，输出是每个阶段的治疗选项，分别相当于 RL 中的状态和动作。显然，应用 RL 方法来解决 DTR 问题展示了几个好处。 RL 能够在每个决策时间为每位患者实现最佳治疗的时间相关决策，从而解决患者之间的异质性。即使不依赖任何准确数学模型的识别或治疗与结果之间的明确关系，也可以实现这种精确的治疗。此外，RL 驱动的解决方案能够通过考虑治疗的延迟效应来改善长期结果，这是医疗的主要特征。最后，通过使用专家或领域知识精心设计奖励函数，强化学习提供了一种优雅的方法来多目标优化疗效和增加的副作用之间的治疗。
由于这些好处，RL 自然而然地成为构建医疗保健领域最佳 DTR 的有吸引力的工具。事实上，解决 DTR 问题在医疗保健应用中占 RL 研究的很大一部分，这可以得到该领域占主导地位的大量参考资料的支持。在 DTR 中应用 RL 的领域可以分为两大类：慢性病和重症监护。

慢性疾病

慢性病现已成为全球最紧迫的公共卫生问题，每年占死亡人数的相当大一部分[80]。慢性病通常持续三个月或更长时间，预计需要持续的临床观察和医疗护理。广泛流行的慢性病包括内分泌疾病（如糖尿病和甲亢）、心血管疾病（如心脏病和高血压）、各种精神疾病（如抑郁症和精神分裂症）、癌症、艾滋病毒感染、肥胖和其他口腔健康问题。 [81]。这些疾病的长期治疗通常由一系列医疗干预组成，这些干预必须考虑到患者不断变化的健康状况和先前治疗产生的不良反应。一般来说，治疗持续时间、剂量和类型与患者反应的关系过于复杂，无法明确指定。因此，从业者通常遵循慢性病护理模式 (CCM) [82] 采取一些协议，以促进慢性病情况下的决策。由于此类协议源自患者群体对治疗的平均反应，因此由于群体之间或群体内的多样性，为个体患者选择最佳治疗顺序带来了重大挑战。 RL 已被用于在各种慢性疾病中自动发现和生成最佳 DTR，包括癌症、糖尿病、贫血、艾滋病毒和几种常见的精神疾病。
1）癌症：
- 癌症是导致死亡的主要慢性病之一。 2015 年约有 9050 万人患有癌症，每年约有 1400 万新病例发生，每年造成约 880 万人死亡，占全球总死亡人数的 15.7% [99]。癌症的主要治疗选择包括手术、化学疗法和放射疗法。为了分析肿瘤和免疫系统之间的动力学，研究人员在过去几十年中提出并分析了许多用于时空或非空间肿瘤免疫动力学的计算模型 [100]。在这些模型的基础上，已经提出了控制政策以获得有效的药物管理（参见 [85]、[101] 和其中的参考资料）。
- 作为本质上的连续进化过程，癌症治疗是 RL 在 DTR 应用中的主要目标 [102]、[103]。表 III 从应用场景（化疗、放疗或通用癌症治疗模拟）、基本 RL 方法、应用的高效和代表性技术（如果适用）的角度总结了 RL 在癌症治疗的各个方面的主要研究），学习数据（回顾性临床数据，或从模拟模型或计算模型生成），以及研究的主要亮点和局限性。
- RL 方法在获得有效的癌症化疗治疗策略方面得到了广泛的研究。Zhao等人 [83]首先应用无模型TD方法，Q-learning，用于化疗药物剂量的决策。利用由几个常微分方程 (ODE) 表示的化疗数学模型，定量生成来自体内肿瘤生长模式的虚拟临床试验数据。两种显式机器学习方法，支持向量回归 (SVG) [104] 和极度随机化树 (ERT) [41]，被应用于将近似 Q 函数拟合到生成的试验数据。使用这种批量学习方法，证明可以在模拟中直接从临床试验数据中提取最佳策略。 Ahn 和 Park [85] 基于 de Pillis 和 Radunskaya [105] 提出的基于 ODE 的肿瘤生长模型，研究了自然 AC (NAC) 方法 [21] 对癌症化疗药物调度的适用性。 NAC 方法旨在最大限度地减少肿瘤细胞数量和药物量，同时最大限度地增加正常细胞和免疫细胞的数量，通过从开始到适当的时间连续注射药物，可以发现有效的药物调度策略。与传统的脉冲化疗方案相比，该策略表现出更好的性能，后者以定期方式（通常为几个小时）给药。工作 [84] 也支持使用连续给药治疗优于突发给药治疗，其中应用了朴素离散 Q 学习。最近，Padmanabhan 等人 [87] 在 Q-learning 中提出了不同的奖励函数公式，以便为具有不同特征的患者群体生成有效的药物剂量政策。 Humphrey [86] 研究了几种监督学习方法（分类和回归树（CART）、随机森林和多变量自适应回归样条（MARS）的修改版本），以在晚期通用癌症试验的模拟中估计 Q 值。
- 放射治疗是治疗癌症的另一个主要选择，许多研究已经应用 RL 方法来开发自动辐射适应协议 [106]。 Jalalimanesh等人[94] 提出了一种基于代理的模拟模型和 Q 学习算法，通过改变治疗过程中的分数大小来优化放射治疗中的剂量计算。 Vincent [92] 描述了研究各种 RL 方法以寻找放射治疗的最佳调度算法的初步努力，包括详尽的 PS [20]、FQI [40]、SARSA(λ) [19] 和 K-Nearest Neighbors TD(λ) [107]。初步研究结果表明，对某些组织类型使用非均匀分馏方案可能有优势。
- 由于放射治疗的目标本质上是一个多目标问题，即用放射消除肿瘤，同时尽可能不影响正常细胞，Jalalimanesh 等人[95] 提出了一种多目标分布式 Q 学习算法来寻找计算放疗剂量的帕累托最优解。每个目标都由一个单独的学习代理优化，所有的代理都妥协了他们各自的解决方案，以获得帕累托最优解决方案。在多目标公式下，通过对消除癌细胞或照顾正常细胞给予不同程度的关注，可以适当地模拟三种不同的临床行为（即侵略性、保守性或温和性）。
- 最近的一项研究 [93] 提出了一个多组件 DRL 框架，以自动为非小细胞肺癌 (NSCLC) 患者制定自适应放疗决策。为了重现或模仿临床医生先前做出的决定，应用了三个神经网络组件，即生成对抗网络 (GAN)、过渡深度神经网络 (DNN) 和深度 Q 网络 (DQN)：GAN组件用于从历史小规模真实临床数据中生成足够大的合成患者数据；基于从 GAN 合成的数据和可用的真实临床数据，使用转换 DNN 组件来了解状态如何在剂量分数的不同作用下转换；一旦提供了整个 MDP 模型，DQN 组件就负责将状态映射到可能的剂量策略中，以优化未来的放射治疗结果。整个框架在 114 名在成功剂量递增方案下接受放射治疗的 NSCLC 患者的回顾性数据集中进行了评估。结果表明，DRL 框架能够学习 1.5 到 3.8 Gy 之间的有效剂量适应策略，这符合临床医生使用的原始剂量范围。
- 癌症的治疗为应用现有的强化学习方法提出了几个重要的理论问题。由于各种不受控制的原因，患者可能随时退出治疗，导致无法观察到最终的治疗结果（例如，癌症治疗中的生存时间）。这个数据审查问题 [96] 使 RL 在发现个性化最佳方案中的实际应用复杂化。此外，在一般癌症治疗中，下一线治疗的开始和时间取决于疾病的进展，因此治疗阶段的数量可以是灵活的。例如，NSCLC患者通常接受一到三线治疗，而二线和三线治疗的必要性和时机因人而异。在如此灵活的环境中开发用于计算最佳 DTR 的有效方法是目前的首要挑战。赵等人。 [88] 提出了一种自适应 Q 学习方法，以发现 IIIB/IV 期 NSCLC 一线和二线治疗的最佳 DTR。该试验是通过随机分配一线和二线治疗的不同化合物以及开始二线治疗的时间进行的。为了成功处理复杂的截尾生存数据，提出了对 SVG 方法的修改， $\epsilon -SVRR-C$ ，以估计最佳 Q 值。一项模拟研究表明，该方法可以直接从临床数据中选择用于两条线治疗的最佳化合物，并且可以在考虑到患者之间的异质性的同时推导出二线治疗的最佳初始时间。其他研究 [96]、[97] 提出了新颖的删失 Q 学习算法(censored-Q-learning)，该算法针对多阶段决策问题进行了调整，该算法具有灵活的阶段数，其中奖励是受审查的生存时间。
- 为了解决在标准 RL 技术中应该预先指定数值奖励函数的问题，一些研究调查了使用定性偏好或仅基于过去在癌症治疗中的行动来制定奖励的可能性 [89]、[52]、 [98]。 Akrour等人[90] 提出了一种结合主动排名的 PRL 方法，以减少对专家的排名查询数量，从而产生令人满意的政策。在癌症治疗试验台上的实验表明，就专家排名反馈而言，非常有限的外部信息可能足以达到最先进的结果。 Busa-Fekete 等人 [91] 在癌症临床试验的医疗设计中引入了一种基于偏好的直接 PS 方法变体。 [98] 首次提出了一种基于动作驱动奖励的新方法。研究表明，可以使用动作衍生的惩罚来学习癌症化疗中的新给药方案，这表明在无法获得最终结果的情况下使用 RL 方法的可能性，但可以更容易地指定有益动作的先验。

应用	参考	基本方法	高效技术	表现手法	数据采集	亮点或局限
癌症治疗的最佳化疗药物剂量	Zhao et al. [83]	Q-learning	BRL	N/A	ODE model	使用 SVR 或 ERT 拟合 Q 值；具有整数值的简单奖励函数结构以评估功效和毒性之间的权衡。
~	Hassani et al. [84]	Q-learning	N/A	N/A	ODE model	状态和动作的朴素离散公式
~	Ahn & Park [85]	NAC	N/A	N/A	ODE model	从一开始就发现持续治疗的策略
~	Humphrey [86]	Q-learning	BRL	N/A	ODE model proposed in [83]	在高维和子组场景中使用三种机器学习方法来拟合 Q 值
~	Padmanabhan [87]	Q-learning	N/A	N/A	ODE model	使用不同的奖励函数来模拟癌症治疗中的不同约束
~	Zhao et al. [88]	Q-learning	BRL(FQI-SVR)	N/A	ODE model driven by real NSCLC data	考虑晚期NSCLC多线治疗中的删失问题；使用总生存时间作为净奖励。
~	Furnkranz et al. [52]Cheng et al. [89]	PI	N/A	PRL	ODE model proposed in [83]	结合偏好学习和 RL 以实现癌症治疗中的最佳治疗设计，但仅限于基于模型的 DP 设置。
~	Akrour et al. [90],Busa-Fekete et al. [91]	PS	N/A	PRL	ODE model proposed in [83]	使用主动排名机制来减少专家所需的排名查询数量，从而在没有生成模型的情况下产生令人满意的策略。
癌症治疗放射治疗的最佳分割安排	Vincent [92]	Q-learning,SARSA(λ),TD(λ), PS	BRL (FQIERT)	N/A	Linear model,ODE model	用于放射治疗的扩展 ODE 模型；在奖励函数中使用硬约束和简单的探索策略。
~	Tseng et al. [93]	Q-learning	N/A	DRL (DQN)	Data from 114 NSCLC patients	使用 GAN 解决有限样本大小问题并使用 DNN 逼近转移概率。
~	Jalalimanesh et al.[94]	Q-learning	N/A	N/A	Agent-based model	使用基于代理的模拟来模拟肿瘤生长的动态。
~	Jalalimanesh et al.[95]	Q-learning	N/A	MORL	Agent-based model	通过考虑最小化肿瘤治疗时间和不可避免的副作用的相互冲突的目标，将其表述为一个多目标问题。
假设或通用癌症临床试验	Goldberg & Kosorok[96], Soliman [97]	Q-learning	N/A	N/A	Linear model	解决审查数据和灵活阶段数的问题。
~	Yauney & Shah [98]	Q-learning	N/A	DRL (DDQN)	ODE model	使用行动驱动的奖励解决非结构化结果奖励的问题。

2）糖尿病：
- 糖尿病( Diabetes mellitus)，简称diabetes，是世界上最严重的慢性病之一。根据国际糖尿病联盟 (IDF) 最近发布的一份报告，2017 年有 4.51 亿人患有糖尿病，导致全球约 500 万人死亡和 8500 亿美元的全球医疗保健支出 [108]。预计到2045年，成人糖尿病总人数将增至近7亿，占成年人口的9.9%。由于糖尿病的高患病率带来了重大的社会影响和经济负担，因此确保全球糖尿病的有效治疗变得越来越紧迫。
- 深入的研究一直致力于开发治疗胰岛素依赖型糖尿病（即 1 型糖尿病）的有效血糖控制策略。自 1970 年代首次提出 [109] 以来，人工胰腺 (AP) 已广泛用于血糖控制过程，通过使用连续血糖监测系统 (CGMS) 和闭环控制器[110]来计算和管理精确的胰岛素剂量。使用比例积分微分 (PID)、模型预测控制 (MPC) 和模糊逻辑 (FL) [111]、[112] 等传统控制策略，在 AP 中胰岛素输注速率自动化方面取得了巨大进展。一个主要的问题是糖尿病人群的内部和内部变异性，这增加了对个性化、患者特定的葡萄糖调节方法的需求。此外，生理系统的复杂性、饮食、运动、压力和疾病等各种干扰，以及对葡萄糖-胰岛素调节系统进行准确建模的困难，都提出了开发更先进的葡萄糖调节自适应算法的需求。
- 强化学习方法在 AP 系统中个性化的、患者特定的葡萄糖调节方面引起了越来越多的关注 [113]。Yasini等人[114] 对使用 RL 控制 AP 以将正常血糖维持在 80 mg/dl 左右进行了初步研究。具体而言，无模型 TD Q 学习算法用于计算胰岛素输送率，而不依赖于葡萄糖 - 胰岛素动力学的显式模型。Daskalaki等[115] 提出了一种基于弗吉尼亚大学/帕多瓦 1 型糖尿病模拟器 [116] 的 AC 控制器，用于在计算机试验中估算胰岛素输注率。在对 10 名成人的 12 天用餐场景的评估中，结果表明该方法可以很好地预防低血糖，但由于 Actor 组件的静态行为，无法正确解决高血糖。然后，作者建议使用平均基础率 (BR) 和胰岛素与碳水化合物 (IC) 比率的每日更新来优化葡萄糖调节 [117]，并使用从胰岛素到葡萄糖的信息传递 (IT) 估计值AC 方法的自动和个性化调整 [118]。这个想法的动机是这样一个事实，即在从胰岛素到葡萄糖的大量 IT 的情况下，Actor 组件中胰岛素的小适应可能就足够了，而对于低 IT，可能需要更剧烈的更新。控制变量网格分析 (CVGA) 的结果表明，与对照组相比，该方法可以在所有三组患者中获得更高的表现，成人 A+B 区的百分比为 100%，青少年和儿童的百分比为 93%。随机初始化和零初始值的方法。AC 方法被显着扩展到与患者特定特征直接相关，并在复杂的膳食方案、膳食不确定性和胰岛素敏感性变化下进行更广泛的评估 [119]、[120]。
- 许多研究使用某些数学模型来模拟患者的葡萄糖 - 胰岛素动态系统。基于 Palumbo 数学模型 [121]，使用on-policy的 SARSA 来计算胰岛素输送率 [122]。 Ngo等人，应用基于模型的 VI 方法 [123] 和 AC 方法 [124]，利用 Bergman 的最小胰岛素-葡萄糖动力学模型 [125] 和 Hovorka 模型，减少空腹和餐后情况下的血糖波动 [126]来模拟病人。 De Paula等[127]、[128] 提出了策略学习算法，将 RL 与高斯过程相结合，以考虑不确定性下的血糖变异性，使用 Ito 的葡萄糖 - 胰岛素动力学随机模型 [129]。
- 还有一些数据驱动的研究根据糖尿病患者的真实数据分析了糖尿病治疗中的 RL。 Asoh 等人利用从东京大学医院 10,000 多名患者的病历中提取的数据。 [130] 估计了潜在患者状态进展的 MDP 模型，并使用 VI 方法评估了治疗价值。医生的意见被用来定义每次治疗的奖励。这种预定义的奖励函数的假设随后激发了 IRL 方法的应用，以揭示医生在治疗过程中使用的奖励函数 [131]。 Luckett 等人使用移动技术在门诊环境中使用关于食物摄入和身体活动影响的观察数据。 [132] 提出了 V-learning 方法，该方法直接估计一个策略，该策略最大化一类策略的价值，并且需要对数据生成过程进行最少的假设。该方法已用于估计治疗方案，以减少 1 型糖尿病患者的低血糖和高血糖发作次数。
1. 贫血：
- 贫血是慢性肾功能衰竭的常见合并症，在接受血液透析的终末期肾病 (ESRD) 患者中，90% 以上都会发生贫血。由于无法充分产生内源性促红细胞生成素 (EPO) 和红细胞，贫血会对器官功能产生重大影响，导致许多严重后果，例如心脏病甚至死亡率增加。目前，通过使用促红细胞生成剂 (ESA) 可以成功治疗贫血，以将血红蛋白 (HGB) 水平维持在 11-12 g/dL 的狭窄范围内。为实现这一目标，专业临床医生必须执行一项劳动密集型的 ESAs 给药过程，以评估每月的 HGB 和铁水平，然后再进行相应的调整。然而，由于现有的贫血管理协议 (AMP) 没有考虑到患者反应的高个体间和个体内变异性，一些患者的 HGB 水平通常在目标范围内波动，从而导致多种风险和副作用。
- 早在 2005 年，Gaweda 等人[133] 首次提出使用 RL 对肾性贫血进行个体化治疗。受控制的目标是 HGB，而控制输入是医生施用的 EPO 量。由于由转铁蛋白饱和度 (TSAT) 确定的患者体内的铁储存量也对红细胞生成过程产生影响，因此它与 HGB 一起被视为状态组件。为了模拟患者群体内不同的剂量反应关系，首先通过使用路易斯维尔大学肾脏科的 186 名血液透析患者的真实记录估计了一个模糊模型。然后对模型生成的样本轨迹执行 On-policy TD 方法 SARSA。结果表明，所提出的方法为来自不同反应组的代表性个体生成了足够的给药策略。然后，作者提出了 MPC 方法与 SARSA 的组合，用于贫血管理的决策支持 [134]，其中 MPC 组件用于模拟患者反应，SARSA 用于优化给药策略。然而，这些研究中的自动化 RL 方法只能实现与现有 AMP 具有可比结果的策略。其他研究应用了各种 Q 学习，例如具有函数近似的 Q 学习，或直接基于状态聚合 [135]、[136]、[137]，以提供有效的贫血治疗方案。
- 几项研究采用 BRL 方法来推导出用于贫血治疗的最佳 ESA 剂量策略。通过对 209 名血液透析患者的队列进行回顾性研究，Malof 和 Gaweda [138] 采用批量 FQI 方法来实现优于标准 AMP 的给药策略。 Escandell 等人也应用了 FQI 方法。 [139] 根据分布在意大利和葡萄牙各地的肾脏病中心的 195 名患者的历史治疗数据发现有效的给药策略。在描述 ESA 对血红蛋白水平影响的计算模型上对 FQI 方法的评估表明，在治疗期间，FQI 可使血红蛋白目标范围内的患者比例增加 27.6%。此外，所需的药物量减少了 5.13%，这表明 ESAs 的使用更有效 [140]。
4）艾滋病毒：
- 为 HIV 感染者发现有效的治疗策略仍然是医学研究中最重要的挑战之一。迄今为止，治疗 HIV 的有效方法是以高效抗逆转录病毒疗法 (HAART) 的形式使用抗 HIV 药物（即抗逆转录病毒药物）的组合来抑制耐药 HIV 毒株的发展 [141]。患有 HIV 的患者通常会随着时间的推移接受一系列治疗，以最大限度地发挥减轻患者治疗负担和提高药物依从性的长期积极成果。然而，由于个体对治疗的免疫反应存在差异，发现最佳的药物组合和调度策略在医学研究和临床试验中仍然是一项艰巨的任务。
- Ernst等人， [142]首先介绍了 RL 技术，用于计算 HIV 感染患者的结构化治疗中断 (STI) 策略。使用数学模型 [141] 人工生成临床数据，应用 BRL 方法 FIQ ERT 以离线方式学习最佳药物处方策略。衍生的 STI 策略的特点是在两种主要抗 HIV 药物之间循环：逆转录酶抑制剂 (RTI) 和蛋白酶抑制剂 (PI)，然后将患者带入健康的无药物稳态。 Parbhoo [143] 使用相同的数学模型，进一步将 FQI-ERT、神经 FQI 和 LSPI 三种 BRL 方法应用于 HIV 治疗问题，表明每种学习技术都有其优缺点。此外，基于南非 Charlotte Maxeke 约翰内斯堡学术医院 250 名 HIV 感染患者的十年真实临床数据进行的测试证实，RL 方法能够建议合理地符合临床医生建议的治疗方法。
- [144] 中提出了一种专家混合方法，以结合基于内核的回归方法（即历史对齐模型）和 RL（即基于模型的贝叶斯 PORL）的优势，用于 HIV 治疗选择。由于基于核的回归方法更适合对历史上更多相关患者进行建模，而基于模型的 RL 方法更适合对未来结果进行推理，因此在这两种方法之间为特定患者自动选择合适的模型，因此倾向于提供对治疗的反应更简单但更强大的模式。利用 EuResist 数据库的一个子集，其中包含 32,960 名患者的 HIV 基因型和治疗反应数据，以及队列中 312 种最常见的药物组合，由专家混合方法得出的治疗疗法优于单独采用每种方法得出的疗法。
- 由于 HIV 的治疗高度依赖于因人而异的患者免疫系统，因此有必要推导出有效的学习策略，以解决和识别亚群之间的差异。 Marivate等人[145] 制定了一个程序，以适应 BRL 方法中的多种不确定性来源，以更好地评估患者亚群中治疗的有效性。其他方法应用了各种 TRL 技术，以利用来自先前学习的转换模型 [146]、[147] 或学习策略 [148] 的先验信息。最近，Yu 等人[149] 提出了一种因果策略梯度算法并对其在 HIV 治疗中进行了评估，以促进最终的学习表现并增加对学习策略的解释。
- HIV 的治疗为评估 RL 研究中的探索机制提供了一个众所周知的试验台。模拟表明，与非健康稳态相比，健康稳态的吸引力盆相当小 [141]。因此，一般的探索方法无法产生有意义的性能改进，因为它们只能在“非健康”稳态附近获得样本。为了解决这个问题，一些研究提出了更先进的探索策略，以提高 HIV 治疗的学习表现。 Pazis等人[150] 介绍了一种在连续状态空间中进行 PAC 优化探索的算法。 Kawaguchi 考虑了 PAC 勘探过程中的时间限制 [151]。两项研究的结果都表明，探索算法可以实现比其他现有的 HIV 治疗探索策略更好的策略。
1. 精神疾病：精神疾病的特点是长期的临床治疗，通常需要随着时间的推移在持续时间、剂量或治疗类型上进行调整 [152]。鉴于大脑是一个复杂的系统，因此建模极具挑战性，在精神疾病治疗中应用依赖于准确大脑模型的传统控制方法被证明是不可行的。 RL 非常适合手头的问题，已广泛应用于各种精神疾病的 DTR，包括癫痫、抑郁症、精神分裂症和各种物质成瘾。
- a) 癫痫症：
  - 癫痫症是最常见的严重神经系统疾病之一，影响着世界约 1% 的人口。发生时，癫痫表现为间歇性和强烈的癫痫发作，被认为是神经群体的异常同步放电。植入式脑深部电刺激装置现在是耐药性癫痫患者的重要治疗选择。非线性动态系统分析和控制的研究人员提出了有前景的预测和检测算法，以抑制癫痫发作的频率、持续时间和幅度 [153]。然而，由于缺乏对癫痫发作及其相关神经动力学的全面了解，通过最小的电刺激设计最佳的癫痫发作抑制算法长期以来一直是癫痫治疗中的一项具有挑战性的任务。
  - RL 通过使控制策略适应患者独特的神经动力学，从而实现对深部脑刺激策略的直接闭环优化，而不必依赖对癫痫发作的准确预测或检测。目标是明确地最大限度地提高刺激的有效性，同时最大限度地减少所施加的刺激总量，从而减少细胞损伤并保护认知和神经功能[154]。Guez等人 [155], [156], [157] 应用 BRL 方法 FQI-ERT 来优化用于治疗癫痫的深部脑刺激策略。将观察到的脑电图 (EEG) 信号编码为 114 维连续特征向量，并将四种不同的模拟频率作为动作，应用 RL 方法使用来自癫痫体外动物模型的数据学习最佳刺激策略。即，大鼠大脑切片中癫痫样活动的场电位记录）。结果表明，RL 策略大大优于目前文献中的最佳刺激策略，将癫痫发作的发生率降低了 25%，对大脑的电刺激总量降低了约 10 倍。随后的验证工作 [158] 显示了大致相似的结果与固定频率刺激策略相比，基于 RL 的策略可以通过显着减少的刺激量来预防癫痫。 Bush 和 Pineau [159] 应用流形嵌入来重建 MRL 中的可观察状态空间，并应用所提出的方法来解决现实生活系统中非线性和部分可观察性的高度复杂性。对学习的神经刺激策略进行了评估，以抑制动物脑切片上的癫痫发作，结果表明在短暂的短暂时期后可以有效抑制癫痫发作。
  - 虽然上述癫痫的体外生物学模型对研究很有用，但它们既耗时又成本高。相比之下，计算模型可以提供大量可重复且廉价的数据，这些数据可能允许精确操作和更深入的调查。 Vincent [92] 提出了一种脑切片癫痫样行为的 in silico 计算模型，并通过体外大鼠脑切片的生物学数据进行了验证。 Nagaraj等人 [160] 提出了第一个捕获从发作间期活动到发作期活动的过渡的计算模型，并应用朴素 Q 学习方法来优化刺激频率，从而以最小的刺激控制癫痫发作。结果表明，即使是这样简单的 RL 方法也可以在具有慢速和快速发作间隔的模拟中收敛于最佳解决方案。
- b) 抑郁症：重度抑郁症 (MDD)，也简称为抑郁症（depression），是一种精神障碍，其特征是在大多数情况下都会出现至少两周的情绪低落。 Pineau 等人使用序列化治疗替代方案缓解抑郁症 (STAR*D) 试验 [161] 的数据，这是一项针对 MDD 患者的序列化四阶段随机临床试验。 [162] 首先应用基于内核的 BRL [163] 为 MDD 患者构建有用的 DTR。其他工作试图通过提出对默认 Q 学习过程的各种扩展来解决传统 RL 方法中决策规则的不平滑以及参数估计的不规则性问题，以提高学习的鲁棒性 [164]。Laber等人 [165] 通过交换传统 Q-learning 中某些步骤的顺序，提出了 Q-learning 的新版本，交互式 Q-learning（IQ-learning），并表明 IQ-learning 在 Q-learning 方面有所改进MDD 研究中的综合均方误差。然后扩展 IQ 学习框架以优化预期值以外的结果分布的函数 [166]、[167]。Schulte等人[168] 提供了 Q-learning 和 Advantage-learning (A-learning) [169] 方法的系统实证研究，并使用来自 MDD 研究的数据说明了它们的性能。其他方法包括惩罚 Q 学习 [170]、增强多阶段结果加权学习 (AMOL) [171]、预算学习算法 [172] 和截尾 Q 学习算法 [97]。
- c) 精神分裂症：
  - RL 方法也被用于获得治疗精神分裂症的最佳 DTR，使用来自干预有效性临床抗精神病试验 (CATIE) 研究的数据 [173]，这是一项为期 18 个月的研究，分为两个主要阶段治疗。 [174] 给出了使用 BRL、FQI 的深入案例研究，使用来自 CATIE 的数据优化精神分裂症患者的治疗选择。概述了在具有缺失数据的典型连续、高度可变和高维临床试验中应用 RL 的关键技术挑战。为了解决这些问题，作者提出了使用多重插补来克服缺失数据问题，然后提出了两种方法，即引导投票和自适应置信区间，用于量化数据中学习最优策略所做选择的证据。 Ertefaie 等 [175] 将残差分析纳入 Q-learning 以提高模型拟合的准确性，并使用来自 CATIE 的数据证明其优于标准 Q-learning。
  - 一些研究侧重于优化治疗精神分裂症的多重治疗目标。Lizotte等人 [176] 通过在精神分裂症的序贯治疗中同时考虑症状减轻、副作用和生活质量的多重奖励，扩展了 FQI 算法。然而，假设最终用户有一个真实的奖励函数，它在目标中是线性的，并且随着时间的推移，所有未来的行动都可以针对相同的真实奖励函数进行最佳选择。为了解决这些问题，作者随后提出了非确定性多目标 FIQ 算法，该算法从连续状态、有限范围的数据中同时计算所有偏好函数的策略 [177]。当患者不知道或无法传达他们的偏好，并且患者对这些结果的偏好存在异质性时，不可能形成一个单一的复合结果来正确平衡所有患者的竞争结果。Laber等人 [178] 然后提出了一种构建精神分裂症 DTR 的方法，该方法通过在每个决策点推荐治疗组来适应患者和时间之间的竞争结果和偏好异质性。Butler等人[179] 通过加班直接引出患者的偏好，为精神分裂症患者推导出偏好敏感的最佳 DTR。
- d) 物质成瘾：物质成瘾，或物质使用障碍 (SUD)，通常涉及一个慢性病程，反复停药，然后复发 [180], [75]。研究人员对 DTR 的开发产生了极大的兴趣，以便使用 RL 方法向最终用户提供及时的干预或预防，引导他们过上更健康的生活。例如，Murphy等人[181] 应用 AC 算法来减少大学生的酗酒和吸烟。 Chakraborty 等。 [77], [182], [183] 使用 Q-learning 和线性模型来识别戒烟治疗方案的 DTR。Tao等人[184] 提出了一种基于树的 RL 方法来直接估计最佳 DTR，并确定青少年的动态 SUD 治疗方案。

重症监护

与通常需要长时间持续监测和药物治疗的慢性病治疗不同，重症监护专用于需要特殊医疗和护理的重病或受伤患者。通常，对此类患者提供单独的地理区域，或正式命名为重症监护病房（ICU），进行密切监测和密切关注，以提高治疗效果[185]。 ICU 将在医疗保健系统的新时代发挥重要作用。据估计，ICU床位与医院床位的比例将从过去的3-5%增加到未来的20-30%[186]。
大量尝试致力于为 ICU 干预的各个方面制定更清晰的指南和标准化方法，例如镇静、营养、血液制品管理、液体和血管活性药物治疗、血流动力学终点、血糖控制和机械通气 [185]。不幸的是，这些干预措施中只有少数可以得到来自随机对照试验或荟萃分析的高质量证据的支持 [187]，尤其是在开发针对复杂 ICU 综合征的潜在新疗法时，例如败血症 [188] 和急性呼吸窘迫综合征 [189]。
由于无处不在的监测和审查技术的发展，现在可以以各种格式生成丰富的 ICU 数据，例如自由文本临床记录、图像、生理波形和生命体征时间序列，这表明了大量机会机器学习，尤其是强化学习技术在重症监护中的应用[190]，[191]。然而，固有的 3C（隔间化(Compartmentalization)、腐败(Corruption)和复杂性(Complexity)）特征表明重症监护数据通常是嘈杂的、有偏见的和不完整的 [5]。以现有机器学习方法可以使用的方式正确处理和解释这些数据是重症监护中数据分析的首要挑战。迄今为止，RL 已广泛应用于脓毒症的治疗（第 IV-B1 部分）、镇静调节（第 IV-B2 部分）以及 ICU 中的其他一些决策问题，例如机械通气和肝素剂量（第 IV-B3 部分））。表 IV 根据所应用的 RL 技术和学习期间获得的数据来源总结了这些应用。

领域	应用	参考	基本方法	高效技术	表现手法	数据采集	亮点和局限
败血症	静脉输液和最大 VP 的管理	Komorowski et al. [192],[193]	SARSA,PI	N/A	N/A	MIMIC-III	SARSA 和 PI 在离散状态和动作空间中的简单应用
~	~	Raghu et al. [194], [195]	Q-learning	N/A	DRL (DDDQN)	MIMIC-III	DRL 在完全连续状态但离散动作空间中的应用
~	~	Raghu et al. [196]	PS	MRL	N/A	MIMIC-III	具有连续状态空间的基于模型的学习；将临床医生的政策整合到 RL 政策中
~	~	Utomo et al. [197]	MC	N/A	N/A	MIMIC-III	估计患者健康状况和治疗的转变以增加其可解释性
~	~	Peng et al. [198]	Q-learning	N/A	DRL (DDDQN)	MIMIC-III	内核学习和 DRL 之间的自适应切换
~	~	Futoma et al. [199]	Q-learning	N/A	DRL	Clinical data at university hospital	处理稀疏采样和经常丢失的多变量时间序列数据
~	~	Yu et al. [200]	Q-learning	BRL(FQI)	DRL, IRL	MIMIC-III	使用深度 IRL 推断最佳奖励函数
~	~	Li et al. [201]	AC	N/A	PORL	MIMIC-III	考虑到脓毒症患者的不确定性和病史信息
~	有针对性的血糖调节	Weng et al. [202]	PI	N/A	N/A	MIMIC-III	了解败血症患者的最佳目标血糖水平
~	细胞因子介导	Petersen et al. [203]	AC	N/A	DRL (DDPG)	Agent-based model	使用奖励塑造来提高学习效率；将死亡率从 49% 显着降低到 0.8%
麻醉	镇静镇痛调节自动化，维持患者生理稳定，减轻疼痛	Moore et al. [204], [205]	Q(λ)	N/A	N/A	PK/PD model	与经过良好调整的 PID 控制器相比，可实现卓越的稳定性
~	~	Moore et al. [206], [207]	Q-learning	N/A	N/A	PK/PD model	使用 BIS 的变化作为状态表示
~	~	Moore et al. [208], [209]	Q-learning	N/A	N/A	In vivo study	首次对人类志愿者使用 RL 进行麻醉给药的临床试验
~	~	Sadati et al. [210]	Unclear	N/A	N/A	PK/PD model	可以利用专家知识实现合理的初始剂量，并使药物投入保持在安全值
~	~	Borera et al. [211]	Q-learning	N/A	N/A	PK/PD model	使用自适应滤波器消除估计患者状态时的延迟
~	~	Lowery & Faisal [212]	AC	N/A	N/A	PK/PD model	考虑连续的状态和动作空间
~	~	Padmanabhan et al. [213]	Q-learning	N/A	N/A	PK/PD model	同时调节镇静和血液动力学参数
~	~	Humbert et al. [214]	N/A	N/A	POMDP, IRL	Clinical data	训练 RL 代理模仿专家麻醉师的决定
其他	肝素剂量	Nemati et al. [215]	Q-learning	BRL	PORL	MIMIC II	具有患者隐藏状态的端到端学习
~	~	Lin et al. [216]	AC	N/A	DRL(DDPG)	MIMIC, Emory Healthcare data	解决连续状态-动作空间中的剂量问题
~	一般用药建议	Wang et al. [217]	AC	N/A	DRL (DDPG)	MIMIC-III	结合监督学习和强化学习，用于覆盖大量疾病的药物剂量
~	机械通气和镇静剂给药	Prasad et al. [218]	Q-learning	BRL(FQI)	N/A	MIMIC-III	机械通气的脱机时间和个性化镇静剂量的最佳决策
~	~	Yu et al. [219]	Q-learning	BRL(FQI)	IRL	MIMIC-III	应用 IRL 来推断奖励函数
~	~	Yu et al. [220]	AC	N/A	N/A	MIMIC-III	结合监督学习和 AC 以提高决策效率
~	~	Jagannatha et al. [221]	Q-learning, PS	BRL(FQI)	N/A	MIMIC-III	分析 ICU 环境中非策略策略评估方法的局限性
~	实验室测试的订购	Cheng et al. [222]	Q-learning	BRL(FQI)	MORL	MIMIC III	在订购实验室时设计反映临床考虑的多目标奖励函数。
~	~	Chang et al. [223]	Q-learning	N/A	DRL (Dueling DQN)	MIMIC III	临床环境中多测量调度问题的第一个 RL 应用
~	GVHD的预防和治疗	Krakow et al. [224]	Q-learning	N/A	N/A	CIBMTR data	用于急性 GVHD 预防和治疗的 DTR 的第一个提案
~	~	Liu et al. [225]	Q-learning	N/A	DRL (DQN)	CIBMTR data	将监督学习步骤纳入 RL