直观理解:光滑性控制梯度变化的速度,而非函数本身。想象你在函数图像上行走,光滑性保证脚下的斜率不会突然改变。
Intuition: Smoothness controls the rate of change of the gradient, not the function itself. Imagine walking on the function's graph - smoothness guarantees that the slope under your feet cannot change abruptly.
• 小ℓ值 (如 ℓ=0.2):函数曲线平缓,梯度变化缓慢 → "温和曲线"
• 大ℓ值 (如 ℓ=8):函数曲线陡峭,梯度变化迅速 → "尖锐曲率"
• 切线变化:移动两个点,观察切线斜率如何变化
• Lipschitz条件:验证 ‖∇f(x₁) - ∇f(x₂)‖ ≤ ℓ‖x₁ - x₂‖ 始终成立
蓝色曲线:原函数 f(x) = 0.3x⁴ + 0.5x²
绿色直线:一阶泰勒近似(切线)
红色曲线:二次上界(抛物面)
关键点:原函数始终在红色抛物面下方!这就是光滑性的全局保证。
• η ≤ 1/ℓ ≈ 0.27:保证单调下降,稳定收敛 ✅
• η ∈ (0.27, 0.5):可能振荡但通常仍收敛 ⚠️
• η > 0.5:很可能发散,函数值不降反升 ❌
• 实验建议:
- 先试 η = 0.1(稳定慢速)
- 再试 η = 0.27(理论最优)
- 对比 η = 0.5(不稳定)
- 观察 η = 0.7(发散)
梯度:∇f(x) = a (常数)
梯度永不改变,完全"平坦"
梯度:∇f(x) = x
Hessian为单位矩阵I
梯度:∇f(x) = Aᵀ(Ax - b)
谱范数的平方
二阶导数:≤ 1/4
常用于分类问题
在x=0处不可微
梯度在0处跳跃(-1到+1)
f''(x) = eˣ → ∞
但在有界域上光滑
• 控制函数值的变化
• |f(x) - f(y)| ≤ L‖x - y‖
• 收敛率:O(1/√t)
• 需要递减步长
• 更弱的条件
• 控制梯度的变化
• ‖∇f(x) - ∇f(y)‖ ≤ ℓ‖x - y‖
• 收敛率:O(1/t) 更快!
• 可用常数步长
• 更强的条件
光滑性是优化的"黄金性质":
• 足够强:使快速算法成为可能(O(1/t)而非O(1/√t))
• 足够弱:涵盖许多实际目标函数(最小二乘、逻辑回归、带光滑激活的神经网络)
• 关键优势:允许使用常数步长,无需随时间递减步长
总结:ℓ-光滑性通过控制梯度的变化率,为优化算法提供了全局保证。
这使得我们能够使用简单的梯度下降获得快速收敛,且步长选择有理论保证。
Summary: ℓ-smoothness provides global guarantees by controlling the rate of gradient change.
This enables fast convergence with simple gradient descent and theoretically justified step sizes.