梯度下降与 Runge-Kutta：同一种离散化直觉

两个看似不同的工具

在进入正题前，先理解两个主角的基本原理：

Runge-Kutta 方法是数值分析中求解常微分方程的经典技术。当我们知道某个系统的变化规律（微分方程 $dy/dt = F(y, t)$），但无法写出解析解时，Runge-Kutta 通过在每一步多次采样导数，将连续的时间演化离散化为一系列小步长计算，从而逼近真实轨迹。

梯度下降是机器学习优化的核心算法。当我们有一个损失函数 $L(\theta)$ 需要最小化时，梯度下降沿着负梯度方向更新参数：$\theta_{k+1} = \theta_k - \eta \nabla L(\theta_k)$，每次只用当前位置的局部信息（梯度），一步步逼近最优解。

引言：同一个动作，两套语言

我越来越觉得：梯度下降和Runge-Kutta的相似之处，不是“比喻”，而是同一个数学动作在两个领域的不同叫法——它们都不试图一口气得到“全局答案”，而是用数值方法根据当前点的局部信息，去估算下一步会到哪里。

一句话概括：它们都在重复同一个模板——

已知当前位置 + 已知当前位置的方向（导数/梯度） → 估算下一步位置。

下面把这个相似性说清楚：梯度下降可以被看成是在数值求解一条 ODE；Runge-Kutta 只是把“估算下一步”这件事做得更精细。

1) 梯度下降 = 欧拉法：用一次梯度估算下一步

给定损失函数 $L(\theta)$，最自然的“连续时间”下降过程是梯度流：

\[\frac{d\theta(t)}{dt} = -\nabla L(\theta(t)).\]

如果用最朴素的显式欧拉法离散化，步长为 $\eta$，我们就在用“当前梯度”去估算“下一步参数”：

\[\theta_{k+1} = \theta_k + \eta \frac{d\theta}{dt}\bigg|_{\theta=\theta_k} = \theta_k - \eta \nabla L(\theta_k).\]

这就是标准梯度下降。换句话说，它和欧拉法一样，都在做“用当前斜率/梯度去推下一步”的近似：

学习率 $\eta$ 在这里就是 ODE 的步长 $h$；梯度 $\nabla L$ 就是“导数场”。

2) Runge-Kutta：同样走一步，但用多次梯度把下一步算得更准

欧拉法每步只看一次导数（一次梯度），因此“下一步”的估算比较粗。Runge-Kutta 的思想是：同样只走一步，但在这一步内部多看几次“方向”，再把它们加权平均，从而更稳、更准地估算下一步。

把 $g(\theta) = \nabla L(\theta)$ 记作梯度场，那么四阶 Runge-Kutta 对梯度流的离散化可以写成：

\[\begin{aligned} k_1 &= -g(\theta_k),\\ k_2 &= -g\big(\theta_k + \tfrac{\eta}{2}k_1\big),\\ k_3 &= -g\big(\theta_k + \tfrac{\eta}{2}k_2\big),\\ k_4 &= -g(\theta_k + \eta k_3),\\ \theta_{k+1} &= \theta_k + \tfrac{\eta}{6}(k_1 + 2k_2 + 2k_3 + k_4). \end{aligned}\]

所以“梯度下降像 Runge-Kutta”在这里变得非常字面：它们都在做数值积分；区别只是你愿意为每一步付出多少次梯度计算的成本。

2.5) 直接对比：GD（欧拉一步）vs Runge-Kutta（四次采样）

方法	“看方向”次数	下一步怎么来	直观代价/收益
梯度下降（显式欧拉）	1	用 $\nabla L(\theta_k)$ 推 $\theta_{k+1}$	便宜、但一步估算偏粗
四阶Runge-Kutta（用于梯度流）	4	在一步内取 $k_1..k_4$ 加权平均	更准更稳、但每步更贵

3) 不止训练：前向传播也在“做积分”（ResNet ↔ 欧拉）

ResNet 的核心更新是：

\[x_{l+1} = x_l + f(x_l;\theta_l).\]

把层数当作离散时间步、把 $f$ 当作导数，这就是对

\[\frac{dx(t)}{dt} = f(x(t), t; \theta)\]

的欧拉离散化。于是你会看到一种很“对称”的画面：

前向：在状态空间里做积分（从 $x_0$ 积到 $x_T$）。
训练：在参数空间里做积分（从 $\theta_0$ 沿梯度流“走”到更低的 $L$）。

4) 一张对照表（把“类似”具体化）

视角	连续形式	离散形式	对应名词
优化（参数）	$\dot\theta=-\nabla L(\theta)$	$\theta_{k+1}=\theta_k-\eta\nabla L(\theta_k)$	学习率 $\eta$ ≈ 步长 $h$
动力系统（状态）	$\dot x=f(x,t)$	$x_{l+1}=x_l+h f(x_l,t_l)$	残差块 ≈ 欧拉一步
更高精度	同上	二阶/四阶Runge-Kutta（多次采样）	多次梯度/导数评估

5) 一个现实的结尾：为什么”训练不用高阶 Runge-Kutta”？

在”只把梯度下降当作求解器”的视角下，高阶 Runge-Kutta 当然更精细；但它通常意味着每步要算多次梯度，成本太高。深度学习里更常见的路线是：

用一次梯度，但通过动量、预条件（如 Adam 的缩放）来改善“走法”；
或者在学习率/步长上做调度与控制，优先解决稳定性与收敛速度。

不过这不妨碍我们抓住本质直觉：梯度下降与 Runge-Kutta 的“像”，源于它们都是把连续变化离散成一小步一小步。

Share on

X Facebook LinkedIn Bluesky

梯度下降与 Runge-Kutta：同一种离散化直觉

两个看似不同的工具

Weiqing Liu

两个看似不同的工具

引言：同一个动作，两套语言

1) 梯度下降 = 欧拉法：用一次梯度估算下一步

2) Runge-Kutta：同样走一步，但用多次梯度把下一步算得更准

2.5) 直接对比：GD（欧拉一步）vs Runge-Kutta（四次采样）

3) 不止训练：前向传播也在“做积分”（ResNet ↔ 欧拉）

4) 一张对照表（把“类似”具体化）

5) 一个现实的结尾：为什么”训练不用高阶 Runge-Kutta”？

Share on

Leave a comment

You may also enjoy

LLM 微调避坑指南：从训练动态到显存账本的深度解剖

房价暴跌，房租凭什么死撑？一场剥离金融幻觉的底层估值修复

告别“调包侠”：一文彻底搞懂交叉熵与KL散度的数学羁绊

沉默的伤痕：为什么我们不能遗忘“慰安妇”的历史？