下图展示了强凸函数的几何特性:函数曲线(蓝线)必须位于强凸下界(绿线)之上
普通凸性:函数 f(y) 在切线 f(x) + ⟨gₓ, y-x⟩ 之上(橙色虚线)
强凸性:函数 f(y) 在强凸下界 f(x) + ⟨gₓ, y-x⟩ + α/2·||y-x||² 之上(绿线)
关键观察:蓝线(f(y))始终在绿线之上,且绿线的"弯曲"由 α 控制
α 的作用:α 越大 → 绿线弯曲越明显 → 函数曲率越强 → 优化收敛越快
早期(s小):η 大,快速接近最优区域(探索)
后期(s大):η 小,精细收敛到最优点(利用)
自适应:无需提前知道总迭代数 T,自动平衡探索与利用
α 调节:α 大 → 曲率强 → 允许更大步长 → η₁ = 1/α
线性权重:w(s) = s,后期迭代权重更高
归一化:Σₛ₌₁ᵗ s = t(t+1)/2,故系数为 2/(t(t+1))
直观:xₜ 权重 = t,x₁ 权重 = 1,差距为 t 倍
原因:配合递减步长,后期迭代更接近 x*,理应获更高权重
| 条件 | 收敛速率 | 类型 | 达到 ε 需要步数 |
|---|---|---|---|
| 仅 Lipschitz | O(1/√t) | 次线性收敛 | O(1/ε²) 步 |
| 强凸 + Lipschitz | O(1/t) | 次线性收敛(更快) | O(1/ε) 步 |
通过图表可以清晰看到强凸性带来的收敛速度提升
🎯 调整参数观察不同条件下的收敛行为,验证理论保证
✓ 1. 上界有效性:绿线(加权误差)始终在橙线(理论上界)之下
✓ 2. 收敛速率:绿线下降速度明显快于蓝线(O(1/√t) 参考)
✓ 3. 加权优势:加权平均保证单调收敛,比单点迭代更稳定
✓ 4. 参数影响:α↑ 或 L↓ → 条件数↓ → 收敛更快