深度学习应用篇-元学习[16]:基于模型的元学习-Learning to Learn优化策略、Meta-Learner LSTM

news/2024/5/18 22:27:31 标签: 深度学习, lstm, 人工智能, 强化学习, 元学习

在这里插入图片描述
深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等

在这里插入图片描述
专栏详细介绍:【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等

本专栏主要方便入门同学快速掌握相关知识。后续会持续把深度学习涉及知识原理分析给大家,让大家在项目实操的同时也能知识储备,知其然、知其所以然、知何由以知其所以然。

声明:部分项目为网络经典项目方便大家快速学习,后续会不断增添实战环节(比赛、论文、现实应用等)

专栏订阅:

深度学习应用篇-元学习[16]:基于模型的元学习-Learning to Learn优化策略、Meta-Learner LSTM

1.Learning to Learn

Learning to Learn by Gradient Descent by Gradient Descent
提出了一种全新的优化策略,
用 LSTM 替代传统优化方法学习一个针对特定任务的优化器。

在机器学习中,通常把优化目标 f ( θ ) f(\theta) f(θ) 表示成

θ ∗ = argmin ⁡ θ ∈ Θ f ( θ ) \theta^{*}=\operatorname{argmin}_{\theta \in \Theta} f(\theta) θ=argminθΘf(θ)

其中,参数 θ \theta θ 的优化方式为

θ t + 1 = θ t − α ∇ f ( θ t ) \theta_{t+1}=\theta_{t}-\alpha \nabla f\left(\theta_{t}\right) θt+1=θtαf(θt)

上式是一种针对特定问题类别的、人为设定的更新规则,
常见于深度学习中,主要解决高维、非凸优化问题。

根据 No Free Lunch Theorems for Optimization 理论,
[1] 提出了一种 基于学习的更新策略 代替 人为设定的更新策略
即,用一个可学习的梯度更新规则,替代人为设计的梯度更新规则。
其中,
optimizer 为 g g g ϕ \phi ϕ 参数化;
optimizee 为 f f f θ \theta θ 参数化。

此时, optimizee 的参数更新方式为

θ t + 1 = θ t + g t ( ∇ f ( θ t ) , ϕ ) \theta_{t+1}=\theta_{t}+g_{t}\left(\nabla f\left(\theta_{t}\right), \phi\right) θt+1=θt+gt(f(θt),ϕ)

optimizer g g g 的更新则由 f f f, ∇ f \nabla f f ϕ \phi ϕ 决定。

1.2 学习机制

图1是 Learning to Learn 中 optimizer 和 optimizee 的工作原理。

图1 Learning to Learn 中 optimizer 和 optimizee 工作原理。
optimizer 为 optimizee 提供更新策略,
optimizee 将损失信息反馈给 optimizer,协助 optimizer 更新。

给定目标函数 f f f 的分布,那么经过 T T T 次优化的 optimizer 的损失定义为整个优化过程损失的加权和:

L ( ϕ ) = E f [ ∑ t = 1 T ω t f ( θ t ) ] \mathcal{L}(\phi)=\mathbb{E}_{f}\left[\sum_{t=1}^{T} \omega_{t} f\left(\theta_{t}\right)\right] L(ϕ)=Ef[t=1Tωtf(θt)]

其中,

θ t + 1 = θ t + g t [ g t , h t + 1 ] = LSTM ⁡ ( ∇ t , h t , ϕ ) \begin{aligned} & \theta_{t+1}=\theta_{t}+g_{t} \\ & {\left[g_{t}, h_{t+1}\right]=\operatorname{LSTM}\left(\nabla_{t}, h_{t}, \phi\right)} \end{aligned} θt+1=θt+gt[gt,ht+1]=LSTM(t,ht,ϕ)

ω t ∈ R ≥ 0 \omega_{t} \in \mathbb{R}_{\geq 0} ωtR0 是各个优化时刻的任意权重,
∇ t = ∇ θ f ( θ t ) \nabla_{t}=\nabla_{\theta} f\left(\theta_{t}\right) t=θf(θt)

图2是 Learning to Learn 计算图。

图1 Learning to Learn 计算图。
梯度只沿实线传递,不沿虚线传递(因为 optimizee 的梯度不依赖于 optimizer 的参数,即
∂ ∇ t / ∂ ϕ = 0 \partial \nabla_{t} / \partial \phi = 0 t/ϕ=0 ),这样可以避免计算 f f f 的二阶导。

[1] 中 optimizer 选用了 LSTM 。
从 LSTM 优化器的设计来看,
几乎没有加入任何先验的人为经验。
优化器本身的参数 ϕ \phi ϕ 即 LSTM 的参数,
这个优化器的参数代表了更新策略。

1.2 Coordinatewise LSTM optimizer

LSTM 需要优化的参数相对较多。
因此,[1] 设计了一个优化器 m m m,它可以对目标函数的每个参数分量进行操作。
具体而言,每次只对 optimizee 的一个参数分量 θ i \theta_{i} θi 进行优化,
这样只需要维持一个很小的 optimizer 就可以完成工作。

对于每个参数分量 θ i \theta_{i} θi
optimizer 的参数 ϕ \phi ϕ 共享,隐层状态 h i h_{i} hi 不共享。
由于每个维度上的 optimizer 输入的 h i h_{i} hi ∇ f ( θ i ) \nabla f\left(\theta_{i}\right) f(θi) 是不同的,
所以即使它们的 ϕ \phi ϕ 相同,它们的输出也不一样。

这样设计的 LSTM 变相实现了优化与维度无关,
这与 RMSprop 和 ADAM 的优化方式类似(为每个维度的参数施行同样的梯度更新规则)。

图3是 LSTM 优化器的一步更新过程。

图3 LSTM 优化器的一步更新过程。所有 LSTM 的 ϕ \phi ϕ 共享, h i h_{i} hi 不共享。

1.3 预处理和后处理

由于 optimizer 的输入是梯度,梯度的幅值变化相对较大,
而神经网络一般只对小范围的输入输出鲁棒,因此在实践中需要对 LSTM 的输入输出进行处理。
[1] 采用如下的方式:

∇ k → { ( log ⁡ ( ∣ ∇ ∣ ) p , sgn ⁡ ( ∇ ) )  if  ∣ ∇ ∣ ≥ e − p ( − 1 , e p ∇ )  otherwise  \nabla^{k} \rightarrow \begin{cases}\left(\frac{\log (|\nabla|)}{p}, \operatorname{sgn}(\nabla)\right) & \text { if }|\nabla| \geq e^{-p} \\ \left(-1, e^{p} \nabla\right) & \text { otherwise }\end{cases} k{(plog(∣∇∣),sgn())(1,ep) if ∣∇∣ep otherwise 

其中, p > 0 p>0 p>0 为任意一个参数([1] 取 p = 10 p=10 p=10),用来裁剪梯度。
如果第一个参数的取值大于 − 1 -1 1
那么它就代表梯度的 log ⁡ \log log ,第二个参数则是它的符号。
如果第一个参数的取值等于 − 1 -1 1
那么它将作为一个标记指引神经网络寻找第二个参数,此时第二个参数就是对梯度的缩放。

  • 参考文献

[1] Learning to Learn by Gradient Descent by Gradient Descent

2. Meta-Learner LSTM

元学习在处理 few-shot 问题时的学习机制如下:

  • 基学习器在元学习器的引导下处理特定任务,发现任务特性;

  • 元学习器总结所有任务共性。

基于小样本的梯度下降存在以下问题:

  • 小样本意味着梯度下降的次数有限,在非凸的情况下,得到的模型必然性能很差;

  • 对于每个单独的数据集,神经网络每次都是随机初始化,若干次迭代后也很难收敛到最佳性能。

因此,元学习可以为基于小样本的梯度下降提供一种提高模型泛化性能的策略。
Meta-Learner LSTM 使用单元状态表示 Learner 参数的更新。
训练 Meta-Learner 既能发现一个良好的 Learner 初始化参数,
又能将 Learner 的参数更新到一个给定的小训练集,以完成一些新任务。

2.1 Meta-Learner LSTM

2.1.1 梯度下降更新规则和 LSTM 单元状态更新规则的等价性

一般的梯度下降更新规则

θ t = θ t − 1 − α t ∇ θ t − 1 L t \theta_{t}=\theta_{t-1}-\alpha_{t} \nabla_{\theta_{t-1}} L_{t} θt=θt1αtθt1Lt

其中, θ t \theta_{t} θt 是第 t t t 次迭代更新时的参数值, α t \alpha_{t} αt 是第 t t t 次迭代更新时的学习率, ∇ θ t − 1 L t \nabla_{\theta_{t-1}} L_{t} θt1Lt 是损失函数在 θ t − 1 \theta_{t-1} θt1 处的梯度值。

LSTM 单元状态更新规则

c t = f t ⋅ c t − 1 + i t ⋅ c ~ t c_{t}=f_{t} \cdot c_{t-1}+i_{t} \cdot \tilde{c}_{t} ct=ftct1+itc~t

其中, c t c_{t} ct t t t 时刻的细胞状态, f t ∈ [ 0 , 1 ] f_{t}\in[0,1] ft[0,1] 是遗忘门, i t ∈ [ 0 , 1 ] i_{t}\in[0, 1] it[0,1] 是输入门。

f t = 1 ,   c t − 1 = θ t − 1 ,   i t = α t ,   c ~ t = − ∇ θ t − 1 L t f_{t}=1,\ c_{t-1}=\theta_{t-1},\ i_{t}=\alpha_{t},\ \tilde{c}_{t}=-\nabla_{\theta_{t-1}} L_{t} ft=1, ct1=θt1, it=αt, c~t=θt1Lt 时, E q .   ( 1 ) = E q .   ( 2 ) \mathrm{Eq.\ (1)=Eq.\ (2)} Eq. (1)=Eq. (2)

经过这样的替换,利用 LSTM 的状态更新替换学习器参数 θ \theta θ

2.1.2 Meta-Learner LSTM 设计思路

Meta-Learner 的目标是学习 LSTM 的更新规则,并将其应用于更新 Learner 的参数上。

(1) 输入门

i t = σ ( W I ⋅ [ ∇ θ t − 1 L t , L t , θ t − 1 , i t − 1 ] + b I ) \begin{align} i_{t}=\sigma\left({W}_{I} \cdot\left[\nabla_{\theta_{t-1}} L_{t}, L_{t}, {\theta}_{t-1}, i_{t-1}\right]+{b}_{I}\right) \end{align} it=σ(WI[θt1Lt,Lt,θt1,it1]+bI)

其中, W W W 是权重矩阵; b b b 是偏差向量; σ \sigma σ 是 Sigmoid 函数;
∇ θ t − 1 L t \nabla_{\theta_{t-1}} L_{t} θt1Lt L t L_{t} Lt 由 Learner 输入 Meta-Learner。

对于输入门参数 i t i_t it ,它的作用相当于学习率 α \alpha α
在此学习率是一个关于 ∇ θ t − 1 L t \nabla_{\theta_{t-1}} L_{t} θt1Lt L t L_{t} Lt θ t − 1 {\theta}_{t-1} θt1 i t − 1 i_{t-1} it1 的函数。

(2) 遗忘门

f t = σ ( W F ⋅ [ ∇ θ t − 1 L t , L t , θ t − 1 , f t − 1 ] + b F ) \begin{align} f_{t}=\sigma\left(W_{F} \cdot\left[\nabla_{\theta_{t-1}} L_{t}, L_{t}, \theta_{t-1}, f_{t-1}\right]+b_{F}\right) \end{align} ft=σ(WF[θt1Lt,Lt,θt1,ft1]+bF)

对于遗忘门参数 f t f_t ft ,它代表着 θ t − 1 \theta_{t-1} θt1 所占的权重,这里将其固定为 1 ,但 1 不一定是它的最优值。

(3) 将学习单元初始状态 c 0 c_0 c0 视为 Meta-Learner 的一个参数,
正对应于 learner 的参数初始值。
这样当来一个新任务时, Meta-Learner 能给出一个较好的初始化值,从而进行快速学习。

(4) 参数共享

为了避免 Meta-Learner 发生参数爆炸,在 Learner 梯度的每一个 coordinate 上进行参数共享。
每一个 coordinate 都有自己的单元状态,但是所有 coordinate 在 LSTM 上的参数都是一样的。
每一个 coordinate 就相当于 Learner 中的每一层,
即对于相同一层的参数 θ i \theta_i θi
它们的更新规则是一样的,即 W I W_I WI b I b_I bI W I W_I WI b I b_I bI 是相同的。

2.2 Meta-Learner LSTM 单元状态更新过程

将 LSTM 单元状态更新过程作为随机梯度下降法的近似,实现 Meta-Learner 对 Leraner 参数更新的指导。

(1) 候选单元状态: c ~ t = − ∇ θ t − 1 L t \tilde{c}_{t}=-\nabla_{\theta_{t-1}} L_{t} c~t=θt1Lt,是 Meta-Learner 从 Leraner 得到的损失函数梯度值,直接输入 Meta-Learner ,作为 t t t 时刻的候选单元状态。

(2) 上一时刻的单元状态: c t − 1 = θ t − 1 c_{t-1}=\theta_{t-1} ct1=θt1,是 Learner 用第 t − 1 t-1 t1 个批次训练数据更新后的参数。每个批次的数据训练完后,Leraner 将损失函数值和损失函数梯度值输入 Meta-Learner,Meta-Learner 更新一次参数,将更新后的参数回馈给 Leraner,Leraner 继续处理下一个批次的训练数据。

(3) 更新的单元状态: c t = θ t c_{t}=\theta_{t} ct=θt,是 Learner 用第 t t t 个批次训练数据更新后的参数。

(4) 输出门:不考虑。

(5) 初始单元状态: c 0 = θ c_{0}=\theta c0=θ,是 Learner 最早的参数初始值。LSTM 模型需要找到最好的初始细胞状态,使得每轮更新后的参数初始值更好地反映任务的共性,在 Learner 上只需要少量更新,就可以达到不错的精度。

2.3 Meta-Learner LSTM 算法流程

Meta-Learner LSTM 前向传递计算如图1所示,其中,
基学习器 M \mathrm{M} M,包含可训练参数 θ \theta θ元学习 R R R,包含可训练参数 Θ \Theta Θ

图1 Meta-Learner LSTM 前向传递计算图。 Learner 计算损失函数值和损失函数梯度值, Meta-Learner 使用 Learner 提供的信息,更新 Learner 中的参数和自身参数。 在任务中,每个批次的训练数据处理完成后,Meta-Learner 为 Learner 更新一次参数, 任务中所有批次的训练数据处理完成后,Meta-Learner 进行一次更新。

Meta-Learner LSTM 算法流程

  1. Θ 0 \Theta_{0} Θ0 ← \leftarrow random initialization

  2. for d = 1 , . . . , n d=1,...,n d=1,...,n do:

    1. D t r a i n D_{\mathrm{train}} Dtrain, D t e s t D_{\mathrm{test}} Dtest ← \leftarrow random dataset from D m e t a − t r a i n {D}_{\mathrm{meta-train}} Dmetatrain

    2. intialize learner parameters: θ 0 ← c 0 \theta_{0} \leftarrow c_{0} θ0c0

    3. for t = 1 , . . . , T t=1,...,T t=1,...,T do:

      1. X t \mathbf{X}_{t} Xt, Y t \mathbf{Y}_{t} Yt ← \leftarrow random batch from D t r a i n D_{\mathrm{train}} Dtrain
      2. get loss of learner on train batch: L t ← L ( M ( X t ; θ t − 1 ) , Y t ) \mathcal{L}_{t} \leftarrow \mathcal{L}\left(M\left(\mathbf{X}_{t} ; \theta_{t-1}\right), \mathbf{Y}_{t}\right) LtL(M(Xt;θt1),Yt)
      3. get output of meta-learner using Eq. (2): c t ← R ( ( ∇ θ t − 1 L t , L t ) ; Θ d − 1 ) c_{t} \leftarrow R\left(\left(\nabla_{\theta_{t-1}} \mathcal{L}_{t}, \mathcal{L}_{t}\right) ; \Theta_{d-1}\right) ctR((θt1Lt,Lt);Θd1)
      4. update learner parameters: θ t ← c t \theta_{t} \leftarrow c_{t} θtct
    4. end for

    5. X , Y ← D t e s t \mathbf{X}, \mathbf{Y} \leftarrow D_{\mathrm{test}} X,YDtest

    6. get loss of learner on test batch: L t e s t ← L ( M ( X ; θ T ) , Y ) {L}_\mathrm{test} \leftarrow {L}\left(M\left(\mathbf{X} ; \theta_{T}\right), \mathbf{Y}\right) LtestL(M(X;θT),Y)

    7. update Θ d \Theta_{d} Θd using ∇ Θ d − 1 L t e s t \nabla_{\Theta_{d-1}} {L}_{\mathrm{test}} Θd1Ltest

  3. end for

  • 对于第 d d d 个任务,在训练集中随机抽取 T T T 个批次的数据,记为 ( X 1 , Y 1 ) , ⋯   , ( X T , Y T ) \left(\boldsymbol{X}_{1}, \boldsymbol{Y}_{1}\right), \cdots, \left(\boldsymbol{X}_{T}, \boldsymbol{Y}_{T}\right) (X1,Y1),,(XT,YT)

  • 对于第 t t t 个批次的数据 ( X t , Y t ) \left(\boldsymbol{X}_{t}, \boldsymbol{Y}_{t}\right) (Xt,Yt),计算 learner 的损失函数值 L t = L [ M ( X t ; θ t − 1 ) , Y t ] L_{t}=L\left[M\left(X_{t}; \theta_{t-1}\right), Y_{t}\right] Lt=L[M(Xt;θt1),Yt] 和损失函数梯度值 ∇ θ t − 1 L t \nabla_{\theta_{t-1}} L_{t} θt1Lt,将损失函数和损失函数梯度输入 meta-learner ,更新细胞状态: c t = R [ ( ∇ θ t − 1 L t , L t ) ; Θ d − 1 ] {c}_{t}=\boldsymbol{R}\left[\left(\nabla_{\theta_{t-1}} L_{t}, L_{t}\right); \Theta_{d-1}\right] ct=R[(θt1Lt,Lt);Θd1],更新的参数值等于更新的细胞状态 θ t = c t \theta_{t}=c_{t} θt=ct

  • 处理完第 d d d 个任务中所有 T T T 个批次的训练数据后,使用第 d d d 个任务的验证集 ( X , Y ) (X, Y) (X,Y), 计算验证集上的损失函数值 L t e s t = L [ M ( X ; θ T ) , Y ] L_{\mathrm{test}}=L\left[M\left(X; \theta_{T}\right), Y\right] Ltest=L[M(X;θT),Y] 和损失函数梯度值 ∇ θ d − 1 L t e s t \nabla_{\theta_{d-1}} L_{\mathrm{test}} θd1Ltest ,更新 meta-learner 参数 Θ d \boldsymbol{\Theta}_{d} Θd

2.4 Meta-Learner LSTM 模型结构

Meta-Learner LSTM 是一个两层的 LSTM 网络,第一层是正常的 LSTM 模型,第二层是近似随机梯度的 LSTM 模型。
所有的损失函数值和损失函数梯度值经过预处理,输入第一层 LSTM 中,
计算学习率和遗忘门等参数,损失函数梯度值还要输入第二层 LSTM 中用于参数更新。

2.5 Meta-Learner LSTM 和 MAML 的区别

  • 在 MAML 中,元学习器给基学习器提供参数初始值,基学习器给元学习器提供损失函数值;
    在 Meta-Learner LSTM 中,元学习器给基学习器提供更新的参数,基学习器给元学习器提供每个批次数据上的损失函数值和损失函数梯度值。

  • 在 MAML 中,基学习器的参数更新在基学习器中进行,元学习器的参数更新在元学习器中进行;
    在 Meta-Learner LSTM 中,基学习器和元学习器的参数更新都在元学习器中进行。

  • 在 MAML 中,元学习器使用 SGD 更新参数初始值,使得损失函数中存在高阶导数;
    在 Meta-Learner LSTM 中,元学习器给基学习器提供修改的 LSTM 更新参数,元学习器自身的参数并不是基学习器中的参数初始值,元学习器自身的参数使用 SGD 进行更新,并不会出现损失函数高阶导数的计算。

  • 在 MAML 中,元学习器和基学习器只在每个任务训练完成后才进行信息交流;
    在 Meta-Learner LSTM 中,元学习器和基学习器在每个任务的每个批次训练数据完成后就进行信息交流。

  • MAML 适用于任意模型结构;
    Meta-Learner LSTM 中的元学习器只能是 LSTM 结构,基学习器可以适用于任意模型结构。

2.6 Meta-Learner LSTM 分类结果

表1 Meta-Learner LSTM 在 miniImageNet 上的分类结果。
Method5-way 1-shot5-way 5-shot
Baseline-finetune28.86 ± \pm ± 0.54 % \% %49.79 ± \pm ± 0.79 % \% %
Baseline-nearest-neighbor41.08 ± \pm ± 0.70 % \% %51.04 ± \pm ± 0.65 % \% %
Matching Network43.40 ± \pm ± 0.78 % \% %51.09 ± \pm ± 0.71 % \% %
Matching Network FCE43.56 ± \pm ± 0.84 % \% %55.31 ± \pm ± 0.73 % \% %
Meta-Learner LSTM43.44 ± \pm ± 0.77 % \% %60.60 ± \pm ± 0.71 % \% %
  • 参考文献

[1] Optimization as a Model for Few-Shot Learning

[2] 长短时记忆网络 LSTM


http://www.niftyadmin.cn/n/435373.html

相关文章

CEETRON如何赋能航空航天领域打造WEB CAE后处理系统?

CAE(计算机辅助工程)在航空航天领域具有广泛的应用,它在航空航天器的设计、性能评估和安全分析等方面开发坚持重要的作用。 本文主要探讨Ceetron集合CAE在航空航天领域中的应用价值,以及对CAE在航空航天领域应用的更详细描述&…

【Python数据分析】如何使用 Pandas 的功能

原文作者:我辈李想 版权声明:文章原创,转载时请务必加上原文超链接、作者信息和本声明。 文章目录 前言一、Pandas 的常见功能二、Pandas 的基本操作1.导入 Pandas 库2.读入数据文件3.查看数据4.选择列和行5.过滤数据6.修改数据7.合并数据8.统…

C语言中断言库与断言函数assert()的用法总结

断言库与断言函数的相关使用总结! 断言函数的使用断言函数及断言库总结#define NDEBUG 断言函数在实现常见算法中的使用 断言函数的使用 话不多说,先来个例子感受一番断言函数assert()到底有什么功能。 由上面例子可知,assert()函数中在z的…

Dockerfile指令详解

文章目录 Dockerfile指令详解FROMMAINTAINERENVWORKDIRCOPYADDRUNCMDENTRYPOINTONBUILDVOLUMEEXPOSELABELUSERARGHEALTHCHECKSTOPSIGNAL Dockerfile指令详解 FROM 格式&#xff1a;FROM <image>或FROM <image>:<tag> FROM指令的功能是为后面的指令提供基础…

python正则表达式分析log提取数字

字符串 I20230615 10:21:32.423612 586226 offline_imu_opt.cpp:295] acc [0.000761005, 0.00130522, 0.022521]’ gyro [-0.00116761, -0.00152764, -0.00334572]’ def get_imu_bias_from_log(file):"""Args:file: log file pathReturn:"""b…

芯片设计全流程概述

芯片设计分为前端设计和后端设计&#xff0c;前端设计&#xff08;也称逻辑设计&#xff09;和后端设计&#xff08;也称物理设计&#xff09;并没有统一严格的界限&#xff0c;涉及到与工艺有关的设计就是后端设计。 1、规格制定 芯片规格&#xff0c;也就像功能列表一样&…

vue3.0 Ts 引入iconfont

打开阿里巴巴矢量图标库我的项目下的xxx项目图标选择symbol模式查看在线链接, 双击xxxxxxx.js会打开一个新标签页内容是js文件,保存到项目(后续图标有更新的话,重新替换这个js文件就行)项目中写一个icon组件 <template><svg :class"svgClass" aria-hidden&q…

jQuery之设置获取样式css()

目录 一、获取样式 1、获取样式 2、获取多个标签的时候只能获取第一个标签的样式 二、设置样式 1、设置单样式 2、设置多样式 3、获取多个标签的时候都可以设置他们的样式(隐式迭代) 一、获取样式 1、获取样式 $("#div1").css(width) // 200px $("#div…