6.3 *扩展阅读:静态优化
6.3.1 无约束的静态优化
我们首先给出无约束的静态优化的定义及相关概念。
定义 6.3.1 (无约束的静态优化)
设开集非空,为目标函数,无约束的静态优化问题是指求解。
定义 6.3.2 (最大值点、极大值点、驻点、临界点)
称为(全局)最大值点,若,成立。
称为极大值点,若使得,成立。
称为驻点或临界点,若在处可微且。
为了求解无约束优化问题,我们需要借助以下定理。这些定理涉及函数的梯度,故称为一阶条件。
定理 6.3.3 (一阶必要条件)
设在处可微,若为的极大值点(或最大值点),则为的驻点。
定理 6.3.4 (一阶充分条件)
设在上凹且可微,为的最大值点当且仅当为的驻点。
证明
必要性:设为最大值点(或极大值点),则使得 因在可微,设(其中、),考虑沿的方向导数,有
充分性:由在上凹且可微,知 故为最大值点。
除了利用函数的梯度以外,我们还可以利用函数的Hesse矩阵来求解无约束优化问题,故称为二阶条件。
定理 6.3.5 (二阶必要条件)
设在上二阶连续可微,为的极大值点,则为的驻点,且半负定。
证明
由于在上二阶连续可微,设,考虑的邻域,由Taylor公式可得 由一阶必要条件可得。
令(其中、满足),利用极大值点条件,上式可改写为 令得到;由于任意,故半负定。
定理 6.3.6 (二阶充分条件)
设在上二阶连续可微,为的驻点,则当负定时,为的极大值点。
证明
由于在上二阶连续可微,故使得在内保持负定。由Taylor公式可得
利用驻点条件可得;且由于负定,故当时,有,从而 故为极大值点。
对于带参数的无约束优化问题,我们有以下结论。
定理 6.3.7 (包络定理)
设,定义为,且,使得。若在处对可微,且为内点,则有
证明
考虑一个简单的情形:认为在处可微,由链式法则可得
由一阶必要条件可得,故上式右端第一项为零,得证。
6.3.2 带等式约束的静态优化
定义 6.3.8 (带等式约束的静态优化)
设开集非空,,。带等式约束的静态优化问题是指求解 其中称为可行域(其元素称为可行解)。
同样地,我们也可以借助一阶必要条件来求解带等式约束的静态优化问题。
定理 6.3.9 (一阶必要条件)
设在上可微,且线性无关,若为的内点(以下简称内点)且为带等式约束的最大值点,则存在唯一的,使得
一阶必要条件的几何意义是:在最大值点处,目标函数的等值线与约束曲面的等值线相切。
图 6.3.1: 如果上升方向与约束曲面的法向不共线,则约束曲面的切平面存在可行方向使得增大。
证明
记、。由于线性无关,对于曲面,由隐函数定理可得存在内点的邻域、使得,且有 简而言之,在邻域内,约束曲面可表示为前个变量关于后个变量的函数,称为曲面的维度。
此时带等式约束的静态优化转换为无约束静态优化。记,根据一阶必要条件,有 记,则
一阶必要条件的重要推论是Lagrange乘子法。
定理 6.3.10 (一阶必要条件)
设在上可微,且线性无关,定义Lagrange函数为 若内点为带等式约束的最大值点,则使得为的驻点,即。由于自然成立,故驻点条件可简记为。
同样地,如果函数满足一定的性质,我们也可以给出一阶充分条件。
定理 6.3.11 (一阶充分条件)
设满足一阶必要条件,且关于凹,则内点为带等式约束的最大值点。
证明
由关于凹,知 即内点为带等式约束的最大值点。
若想仅通过的性质给出一阶充分条件,需要都有关于凹,此时不难发现:
定理 6.3.12
设在上可微且凹,为线性函数,且满足一阶必要条件,则内点为带等式约束的最大值点。
为了给出二阶条件,我们需要先定义约束曲面的切空间。
定义 6.3.13 (切空间)
曲面在处的切空间为。
定理 6.3.14
,其中表示列空间,满足。
证明
注意到 故,都有,即。
另一方面,由于线性无关,故,从而。
又由于的下子矩阵为单位矩阵,故。
综上可得,从而。
设为阶对称矩阵。由于,故在切空间上半负定等价于 为阶半负定矩阵 其余情况(半正定、负定、正定、不定)类同。
定理 6.3.15 (二阶必要条件)
设在上二阶连续可微,。若内点为限制在上的极大值点,则使得为的驻点,且在切空间上半负定。
证明
将约束曲面表示为。令(其中、满足),由的连续性可得其在邻域上有界(使得在内恒成立);再由Taylor公式可得 由于在上二阶连续可微,设、,考虑的邻域,由Taylor公式可得
由一阶必要条件可得。
利用极大值点条件可将上式改写为 令可得 故在切空间上半负定。
定理 6.3.16 (二阶充分条件)
设在上二阶连续可微,。若使得为的驻点,且在切空间上负定,则内点为此规划的极大值点。
证明
将约束曲面表示为。令(其中、满足),由Taylor公式可得 由的连续性可得其在邻域上有界(使得在内恒成立),则有 由于在上二阶连续可微,故使得在内保持负定。由Taylor公式可得
其中为在内的上界。记在内的上界为。 利用驻点条件可得,代入上式可得 由于、列满秩,故;再由的负定性可得 与此同时,由于,故 因此,当时,有 即,从而。
若自身负定,则其在切空间上亦负定。这给了我们一个更简单的二阶充分条件。
同样地,我们也可以给出带等式约束的静态优化问题的包络定理。
定理 6.3.17 (包络定理)
设开集非空,,。定义,为,且,使得。定义Lagrange函数为 记对应的Lagrange乘子为。若在处对可微,且为的内点,则有
证明
类似无约束情形,考虑一个简单的情形:认为在处可微,由链式法则可得 由一阶必要条件可得,故 注意到,恒有,令对求导可得 代入上式得
为了进一步探讨的含义,我们考虑如下带松弛约束的静态优化问题: 其最优解可记为,对应的Lagrange乘子和最优目标函数值分别记为和。由包络定理可得
由此可见,Lagrange乘子表示目标函数值对约束松弛量的敏感度,即约束松弛量每增加一个单位,目标函数值将增加个单位。在经济学中,约束对应资源限制,Lagrange乘子即反映了资源限制对最优值的边际影响,因此也称为影子价格。
上述含义为我们提供了另一种计算Lagrange乘子的方法:,这种思想在后续带不等式约束的静态优化中起到重要作用。
6.3.3 带不等式约束的静态优化
定义 6.3.18
设开集,,,。带不等式约束的静态优化问题是指求解 可行域。
我们先定义一些必要的概念。
定义 6.3.19 (起作用约束)
设可行解,考虑某不等式约束:
- 若,则称是在处的起作用约束;
- 若,则称是在处的不起作用约束。
等式约束恒为起作用约束。将在处的起作用约束下标集记作。
定义 6.3.20 (上升方向、可行方向)
设,若满足使得,,则称为在处的上升方向。
若满足使得,,则称为在处的可行方向。
- 集合中的方向均为上升方向。
- 对于不等式约束,集合中的方向均为可行方向。
- 对于等式约束,可能不存在可行方向,故可考虑切空间中的方向,其中为约束曲面正则点。
利用上升方向和可行方向的概念,我们可以给出带不等式约束的静态优化问题的一阶必要条件。
定理 6.3.21 (一阶必要条件)
若是极大值点,且为约束曲面正则点,则不存在在处的上升方向同时为可行方向,即。
利用Motzkin定理,可将一阶必要条件代数化。
定理 6.3.22 (Motzkin定理)
设为矩阵、,记表示逐元素大于(等于),以下两个命题择一成立:
- 有解。
- 有解,其中且。
定理 6.3.23 (一阶必要条件,Fritz John条件)
若是极大值点,则存在不全为零的、、使得
证明
记,以及 则一阶必要条件可化为 由Motzkin定理可知,存在满足且、使得
我们不关心的情形,因为此时约束条件(的梯度)线性相关,说明可以用较少的约束条件描述可行域。若(此时引入正则条件),则可将上式两端同时除以,得到KKT条件。
定理 6.3.24 (一阶必要条件,Karush-Kuhn-Tucker条件)
设为正则点,即线性无关(其中,)。若是极大值点,则存在、使得
为了将不起作用约束也纳入考虑,我们引入互补松弛条件:
综合KKT条件与互补松弛条件,可借助Lagrange乘子法,得到带不等式约束的静态优化问题的一阶必要条件:
定理 6.3.25 (一阶必要条件,Lagrange乘子法·KKT条件)
设为正则点,即线性无关(其中,)。定义 若是极大值点,则存在、使得,且成立互补松弛条件:
同理,在经济学中,这里的也称为影子价格,反映了约束对最优值的边际影响。注意到可以是,对应的不等式约束对最优值没有边际影响,此时约束并不起作用,亦即对应的资源不稀缺,由此得到经典名言——不稀缺的资源无边际价值,有边际价值的资源稀缺。
一阶必要条件的几何意义是:在最大值点处,目标函数的等值线与起作用约束曲面的等值线相切,且的上升方向与曲面的法向同向。
图 6.3.2: 如果上升方向与起作用约束曲面的法向不共线,则切平面存在可行方向使得增大;而保证了当与共线时,两者同向,此时不为可行方向,亦即不存在可行方向使得增大。
为了给出一阶充分条件,我们需要限制的性质,由此给出凹规划的概念。
定义 6.3.26 (凹规划)
称以下规划问题为凹规划,若在上凹,在上凸,为线性函数。容易证明其可行域为凸集。
凹规划并未要求可微,故的梯度未必存在。为此,我们引入超梯度的概念:
定义 6.3.27 (超梯度)
称为在处的超梯度,若,成立
凹函数的超梯度必定存在。若凹函数在处可微,则其超梯度存在且唯一,且为。
为了证明凹规划的一阶充分条件,我们需要计算出不等式约束对应的Lagrange乘子。利用Lagrange乘子的经济学含义,我们考虑对不等式约束进行松弛,考虑如下带参数的凹规划:
其中可行域满足。上述规划的最优目标函数在处的(超)梯度即为我们需要的Lagrange乘子。为了保证超梯度存在,的性质需要足够好(如凹)。
考虑新的目标函数,即可消除不等式约束,将问题转化为仅含等式约束的静态优化: 如果的最优解与的最优解相同,且的性质足够好(如关于凹),则可利用等式约束的静态优化的一阶充分条件,得到凹规划的一阶充分条件。
记,设为的内点(否则不等式约束退化为等式约束),由此得到下面的定理:
定理 6.3.28
-
(1)
-
,凹规划的最优目标函数存在。
-
(2)
-
凹,故在处的超梯度存在。
-
(3)
-
在处的任意超梯度。
-
(4)
-
设为的最优解,则成立互补松弛条件。
-
(5)
-
关于凹,故的一阶充分条件适用。
-
(6)
-
的最优解与的最优解相同。
证明
(1) 为非空紧集,连续函数在非空紧集上存在最值,故存在。
(2) 下证为凹函数,即 设,记,注意到满足 由于凸、为线性函数,因此满足 因此为凹规划的可行解,故有 由此表明为凹函数,其在处的超梯度存在。
(3) 下证,由超梯度的定义可得 设,则 亦即与相比,的可行域更大、对应更弱的约束,故。分别取满足“第个分量为,其余分量为”,则由超梯度的定义可得 故。
(4) 下证互补松弛条件:,只需考虑的那些不等式约束。由于为的内点,设满足,由超梯度的定义可得 规划的最优目标函数值,说明不为的可行解,亦即 故互补松弛条件成立。
(5) 下证关于凹。设,记,利用凹、凸、可得
(6) 下证两个规划的最优解相同。记的最优解为,其满足,故,亦即。注意到为的可行解,故有 由超梯度的定义可得 再由互补松弛条件可得 因此 因此亦为的最优解,两个规划的最优解相同。
借助这个定理,我们最终将凹规划转换成带等式约束的静态优化,此时目标函数关于还是凹函数,从而得到一阶充分条件:
定理 6.3.29 (凹规划的一阶充分条件·KKT条件)
对于凹规划,设满足互补松弛条件 且满足的一阶充分条件,其中
则内点为凹规划的最大值点。换言之,内点为凹规划的最大值点当且仅当其满足KKT条件。
类似切空间,我们可以定义可行空间的概念,由此给出带不等式约束的静态优化问题的二阶条件。
定义 6.3.30 (可行空间)
约束在处的可行空间定义为
定理 6.3.31 (二阶必要条件)
若内点为此规划的极大值点,则满足KKT条件,且在上半负定。
定理 6.3.32 (二阶充分条件)
若满足KKT条件,且在上负定,则内点为此规划的极大值点。
证明留作练习。
最后提一类特殊的规划:拟凹规划,其目标函数为拟凹函数,约束函数为拟凸函数。
定义 6.3.33 (拟凹、拟凸)
称函数为拟凹,若,,成立 称函数为拟凸,若为拟凹。
简而言之,拟凹(凸)函数只有一个峰(谷),其上(下)水平集均为凸集。如果拟凹(凸)函数可微,则其梯度满足
定理 6.3.34 (拟凹函数的一阶性质)
设为可微函数,则拟凹的充分必要条件为:,若,则
拟凹规划的一阶充分条件与凹规划相同。
定理 6.3.35 (拟凹规划的一阶充分条件·KKT条件)
设在上拟凹,在上拟凸,为线性函数,且为正则点。内点为拟凹规划的最大值点当且仅当其满足KKT条件。
证明
设满足KKT条件。,,则,由拟凸可得 是线性约束,其可以表示为,故有 两式相加可得 借助KKT条件可得 假设不为拟凹规划的最优解,即使得。由的连续、拟凹,使得 因此
取,足够小,则有,不满足正则条件,故为拟凹规划的最优解。
6.3.4 静态规划的 Big Picture
| 优化问题 |
| ray 0gray 0约束条件 | | ray 0gray 0 | |
| ray 0gray 0一阶必要条件 | | ray 0gray 0为极值点 |
|
| ray 0gray 0一阶充分条件 |
| ray 0gray 0一阶必要条件 |
| ray 0gray 0为最值点 |
|
| ray 0gray 0二阶必要条件 |
| ray 0gray 0为极值点 |
| ray 0gray 0一阶必要条件 |
|
| ray 0gray 0二阶充分条件 |
| ray 0gray 0一阶必要条件 |
| ray 0gray 0为极值点 |
|
| 无约束 |
—— |
|
凹 |
半负定 |
负定 |
| 带等式约束 |
|
|
| ray 0gray 0关于凹 | | ray 0gray 0或凹,线性 | |
| ray 0gray 0 | | ray 0gray 0在半负定 | |
| ray 0gray 0 | | ray 0gray 0在负定 | |
| 带不等式约束 |
| ray 0gray 0 | | ray 0gray 0 | |
| ray 0gray 0 | | ray 0gray 0 | |
| ray 0gray 0拟凹规划 | | ray 0gray 0拟凹,拟凸,线性 |
|
| ray 0gray 0 | | ray 0gray 0在半负定 | |
| ray 0gray 0 | | ray 0gray 0在负定 | |
表 6.3.1: 静态优化问题的总结
| 优化问题 |
Lagrange函数 |
切空间/可行空间 |
| 带等式约束 | | |
| 带不等式约束 |
|
|
表 6.3.2: 带约束优化问题的Lagrange函数与切空间/可行空间