Sa vvy Un i Li 64 49 19091121319 6HH kykR ah j9d P+iQ#2` R9- kykR *QMi2Mib R 1tT2+iiBQM k RXR 1tT2+iiBQM M/ o`BM+2 X X X X X X X X X X X X X X X X X X X X X X X X X X X X k RXk CQBMi 1tT2+iiBQM M/ *Qp`BM+2 X X X X X X X X X X X X X X X X X X X X X X X X 8 RXj :2M2`iBM; 6mM+iBQM X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X d RX9 *QM/BiBQMH 1tT2+iiBQM X X X X X X X X X X X X X X X X X X X X X X X X X X X X X RR RX8 *QM/BiBQMH o`BM+2 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X Rk RXe *QKTmi2 1tT2+iiBQM #v *QM/BiBQMBM; X X X X X X X X X X X X X X X X X X X X X Rj RXd *QKTmi2 o`BM+2 #v *QM/BiBQMBM; X X X X X X X X X X X X X X X X X X X X X X X R8 k AM2[mHBiB2b Re kXR *QM+2Mi`iBQM AM2[mHBiB2b X X X X X X X X X X X X X X X X X X X X X X X X X X X X Re kXk aQK2 Pi?2` AKTQ`iMi AM2[mHBiB2b X X X X X X X X X X X X X X X X X X X X X X X R3 R Sa vvy Un i Li 64 49 19091121319 R 1tT2+iiBQM RXR 1tT2+iiBQM M/ o`BM+2 URV .Bb+`2i2 `XpX s, HH TQbbB#H2 pHm2b, {x1, x2, . . .} E (X) = ∑ ∀xi xiP (X = xi) = ∑ ∀xi xip(xi), E (g (X)) = ∑ ∀xi g (xi)P (X = xi) = ∑ ∀xi g (xi) p(xi). q?2M g (X) = X2, E ( X2 ) = ∑ ∀xi x2iP (X = xi) = ∑ ∀xi x2i p(xi), i?2`27Q`2 o (X) = E (X2)− (E (X))2 . S`Q#H2K RXR a?Qr p`BM+2 HbQ 2[mHb iQ E(X − E(X))2X UkV *QMiBMmQmb `XpX s, rBi? T/7 f (x) A/2, Discrete→ Continuous { pmf → pdf∑ ∀x!→ ∫ ∀x!dx. E (X) = ∫ ∀x xf (x) dx, E (g (X)) = ∫ ∀x g (x) f (x) dx aBKBH`Hv- B7 g (X) = X2- r2 +M Q#iBM E ( X2 ) = ∫ ∀x x2f (x) dx. h?2`27Q`2- p`BM+2, o (X) = E (X2)− E (X)2 k Sa vvy Un i Li 64 49 19091121319 UjV S`QT2`iB2bX Ç E (∑ni=1 aiXi) =∑ni=1 aiE (Xi) Ç o (∑ni=1 aiXi) =∑ni=1 a2io (Xi) +{ ∑i ̸=j aiaj*Qp (Xi, Xj)2∑i
j
Sa
vvy
Un
i
Li
64
49
19091121319
1_ jXRXk9
G2i X ∼ :2QK2i`B+(θ)X *QKTmi2 E(X2)X
1_ jXRXk8
amTTQb2 X Bb /Bb+`2i2 `M/QK p`B#H2- bm+? i?i E(KBM(X,M)) = E(X)X S`Qp2 i?i
P (X > M) = 0X
9
Sa
vvy
Un
i
Li
64
49
19091121319
RXk CQBMi 1tT2+iiBQM M/ *Qp`BM+2
URV .Bb+`2i2 `XpX s-u,
E (h (X, Y )) =
∑
∀x
∑
∀y
h (x, y)P (X = x, Y = y) =
∑
∀x
∑
∀y
h (x, y) p(x, y).
UkV *QMiBMmQmb `XpX s-u,
E (h (X, Y )) =
∫
∀x
∫
∀y
h (x, y) f (x, y) dydx.
UjV S`QT2`iB2b,
Ç A7 X M/ Y `2 BM/2T2M/2Mi-
E (g1 (X) g2 (Y )) = E (g1 (X))E (g2 (Y )) ,
h?2`27Q`2 r2 +M b22- B7 X M/ Y `2 BM/2T2M/2Mi-
*Qp (X, Y ) = E (XY )− E (X)E (Y ) = 0.
Ç *Qp
(∑n
i=1 aiXi,
∑m
j=1 bjYj
)
=
∑n
i=1
∑m
j=1 aibj*Qp(Xi, Yj)
8
Sa
vvy
Un
i
Li
64
49
19091121319
S`Q#H2K RXk S`Qp2,
Ç E((Y1−Y2)2) = 2o(Y )- r?2`2 Y1 M/ Y2 `2 irQ BM/2T2M/2Mi Q#b2`piBQMb 7`QK bK2
/Bbi`B#miBQM fY (y)X
Ç *Qp(X¯,Xi − X¯) = 0, i = 1, . . . , n- r?2`2 Xib `2 B/2MiB+HHv M/ BM/2T2M/2MiHv /Bb@
i`B#mi2/ M/ X¯ Bb i?2 bKTH2 K2MX
e
Sa
vvy
Un
i
Li
64
49
19091121319
RXj :2M2`iBM; 6mM+iBQM
S`Q##BHBiv :2M2`iBM; 6mM+iBQM US:6V,
rX(t) = E(t
X)
注意:这里 t 是一个给定的 pHm2,而 X 是一个 `XpX
lb27mH S`QT2`iB2b U6Q` /Bb+`2i2 `M/QK p`B#H2V,
Ç rX(0) = P (X = 0)
Ç r′X(0) = P (X = 1)
Ç r′′X(0) = 2P (X = 2)
Ç r(k)X (0) = k!P (X = k)
Ç A7 X1, . . . , Xn `2 BM/2T2M/2Mi- i?2M
rX1+···+Xn (t) = E
(
tX1+···+Xn
)
=
n∏
i=1
rXi (t) .
AM/2T2M/2M+2 Bb `2[mB`2/X Pi?2`rBb2 r2 +MMQi b2T`i2 i?2 2tT2+iiBQMX
d
Sa
vvy
Un
i
Li
64
49
19091121319
JQK2Mi :2M2`iBM; 6mM+iBQM UJ:6V,
mX (s) = E
(
esX
)
注意:这里 s 是一个给定的 pHm2,而 X 是一个 `XpX
Ç mX(0) = 1
Ç m′X(0) = E(X), }`bi KQK2Mi
Ç m′′X(0) = E(X2), b2+QM/ KQK2Mi
Ç m′(k)X (0) = E(Xk), k@i? KQK2Mi
Ç J:6 mMB[m2Hv /2i2`KBM2b /Bbi`B#miBQMX U也就是说如果两个变量有相同的 K;7,
那么它们有相同的 TK7fT/7f+/7。V
1tKTH2 RXR 6BM/ i?2 J:6 Q7 X ∼ Exp (λ)
mX (t) = E
(
etX
)
=
∫ ∞
0
etxλe−λxdx
=
∫ ∞
0
λe−(λ−t)xdx
=
λ
λ− t
∫ ∞
0
(λ− t) e−(λ−t)xdx
=
λ
λ− t
Ç A7 X1, . . . , Xn `2 BM/2T2M/2Mi- i?2M
mX1+···+Xn (s) = E
(
es(X1+···+Xn)
)
=
n∏
i=1
mXi (s) .
AM/2T2M/2M+2 Bb `2[mB`2/X Pi?2`rBb2 r2 +MMQi b2T`i2 i?2 2tT2+iiBQMX
3
Sa
vvy
Un
i
Li
64
49
19091121319
JmHiBp`Bi2 JQK2Mi :2M2`iBM; 6mM+iBQM,
G2i u = (Y1, . . . , YK) #2 `M/QK p2+iQ`X h?2 J:6 Q7 u Bb /2}M2/ b
mu (i) = E
(
eiu
)
= E
(
et1Y1+···+tKYK
)
N
Sa
vvy
Un
i
Li
64
49
19091121319
1_ jX9XkR
amTTQb2 i?i Xi ∼ SQBbbQM(λi) M/ X1, . . . , Xn `2 BM/2T2M/2MiX lbBM; K;7- /2i2`KBM2
i?2 /Bbi`B#miBQM Q7 Y =∑ni=1XiX
Ry
Sa
vvy
Un
i
Li
64
49
19091121319
RX9 *QM/BiBQMH 1tT2+iiBQM
URV .Bb+`2i2 +QM/BiBQMH `XpX X|Y = y UX, Y #Qi? /Bb+`2i2V
*QM/BiBQMH 1tT2+iiBQM,
E [X|Y = y] =
∑
∀x
xP (X = x|Y = y) =
∑
∀x
x · pX|Y (x|y)
E [g (X) |Y = y] =
∑
∀x
g (x)P (X = x|Y = y) =
∑
∀x
g(x) · pX|Y (x|y)
6`QK 2tT2+iiBQM iQ +QM/BiBQMH 2tT2+iiBQM- r2 QMHv M22/ R bi2T,
E [X] =
∑
∀x x · pX(x) TK7
↓ ↓
E [X|Y = y] =∑∀x x · pX|Y (x|y) +QM/BiBQMH TK7X
UkV *QMiBMmQmb +QM/BiBQMH `XpX X|Y = y UX, Y #Qi? +QMiBMmQmbV +M #2 Mv /Bbi`B@
#miBQMV
*QM/BiBQMH 1tT2+iiBQM,
E [X|Y = y] =
∫
∀x
xfX|Y (x|y) dx,
E [g (X) |Y = y] =
∫
∀x
g (x) fX|Y (x|y) dx.
6`QK 2tT2+iiBQM iQ +QM/BiBQMH 2tT2+iiBQM- r2 QMHv M22/ R bi2T,
E [X] =
∫
∀x xfX(x)dx T/7↓ ↓
E [X|Y = y] = ∫∀x xfX|Y (x|y) dx +QM/BiBQMH T/7X
UjV S`QT2`iv,
Ç E [aX + b|Y = y] = aE [X|Y = y] + b
Ç E [g(X) + h(Y )|Y = y] = E [g(X)|Y = y] + h(y)
Ç E [g(X) · h(Y )|Y = y] = E [g(X)|Y = y]h(y)
Ç A7 X M/ Y `2 BM/2T2M/2Mi-
E [g(X)|Y = y] = E[g(X)].
Ç E [X|Y = y] Bb }t2/ pHm2 7Q` Mv ;Bp2M y.
Ç E [X|Y ] Bb
{ 7mM+iBQM Q7 Y
`XpX . A7 E [X|Y = y] = g (y) , E [X|Y ] = g (Y ) . _2TH+2
y #v Y.
RR
Sa
vvy
Un
i
Li
64
49
19091121319
RX8 *QM/BiBQMH o`BM+2
:Bp2M Y = y- i?2 +QM/BiBQMH p`BM+2 Q7 X Bb /2}M2/ b
o (X|Y = y) = E [X2|Y = y]− (E [X|Y = y])2
S`QT2`iB2b,
Ç o (aX + b|Y = y) = a2o (X|Y = y) .
Ç o (X|Y = y) Bb }t2/ pHm2 ;Bp2M vX
Ç o (X|Y ) Bb
{ 7mM+iBQM Q7 Y
`XpX . A7 o (X|Y = y) = h (y) , V ar (X|Y ) = h (Y ) . _2TH+2
y #v Y.
1tKTH2 RXk
fX,Y (x, y) =
{
xe−xy, x > 0, y > 1
0, o.w.
6BM/ E [X|Y = y] M/ o (2X − 3|Y = y)X
Rk
Sa
vvy
Un
i
Li
64
49
19091121319
RXe *QKTmi2 1tT2+iiBQM #v *QM/BiBQMBM;
Gr Q7 hQiH 1tT2+iiBQM
E [X] = EY [EX [X|Y ]] ,
上面这个公式也叫做 .Qm#H2 1tT2+iiBQM 7Q`KmH。可以发现这里涉及到两层 1tT2+i@
iBQM,内部这层是在给定 Y 的情况下对于 X 求的。之前提过 EX [X|Y ] Bb 7mM+iBQM Q7 Y,
所以外部这次是对 Y 求的。
URV Y Bb /Bb+`2i2
E [X] =
∑
∀y
E [X|Y = y] pY (y)
UkV Y Bb +QMiBMmQmb
E [X] =
∫
∀y
E [X|Y = y] fY (y) dy
当我们具体写出它的公式之后,可以发现要求 E[X]- 可以先去求每一个 Y 下的
+QM/BiBQMH 2tT2+iiBQM E[X|Y = y],再合并所有的可能性。下面说下一般如何使用这个
公式求解 1tT2+iiBQM。
ai2T RX 计算 E [X|Y = y] = g(y) U参考 *QM/BiBQMH 1tT2+iiBQM 那一节提过的公式V
ai2T kX 当 Y 是一个常见的 `XpX,把 y 换成 Y,得到 E [X|Y ] = g(Y )。最后这个问
题就变成求 g(Y ) 的 1tT2+iiBQM (参考 1tT2+iiBQM 那一节提过的公式)
Rj
Sa
vvy
Un
i
Li
64
49
19091121319
1tKTH2 RXj amTTQb2 Y ∼ Unif (0, 1) M/ ;Bp2M Y = y,X ∼ Bin (n, y) , }M/ E [X] .
1_ jX9Xk9
amTTQb2 X1, X2, . . . Bb BXBX/X 1tTQM2MiBH(λ) M/ N ∼ SQBbbQM(λ) BM/2T2M/2Mi Q7 i?2
{Xi}X .2i2`KBM2 i?2 KQK2Mi@;2M2`iBM; 7mM+iBQM Q7 SN X .2i2`KBM2 i?2 }`bi KQK2Mi Q7
i?Bb /Bbi`B#miBQM #v /Bz2`2MiBiBM; i?Bb 7mM+iBQMX
R9
Sa
vvy
Un
i
Li
64
49
19091121319
RXd *QKTmi2 o`BM+2 #v *QM/BiBQMBM;
下面介绍一种通过 +QM/BiBQMBM; 求解 o`BM+2 的方法
hQiH o`BM+2 6Q`KmH
o (X) = EY [oX (X|Y )] + oY (EX [X|Y ]) .
下面说下一般如何使用上述公式求解 o`BM+2。
ai2T RX 计算 E [X|Y = y] = g(y), V ar(X|Y = y) = h(y) U参考 *QM/BiBQMH 1tT2+i@
iBQMfo`BM+2 那两节提过的公式V
ai2T kX 当 Y 是一个常见的 `XpX,把 y 换成 Y,得到 E [X|Y ] = g(Y ), V ar (X|Y ) =
h(Y )。最后这个问题就变成求 g(Y )的 o`BM+2和 h(Y )的 1tT2+iiBQM(参
考 1tT2+iiBQM 那一节提过的公式)
1tKTH2 RXj U_2pBbBi2/V amTTQb2 Y ∼ Unif (0, 1) M/ ;Bp2M Y = y,X ∼ Bin (n, y) ,
}M/ o(X).
R8
S
vvy
Un
i
Li
64
49
19091121319
k AM2[mHBiB2b
kXR *QM+2Mi`iBQM AM2[mHBiB2b
h?2Q`2K kXR UJ`FQpǶb AM2[mHBivV A7 X ≥ 0 rBi? µ = EX <∞- i?2M 7Q` HH a > 0-
P (X ≥ a) ≤ EX
a
.
简单来说,对于一个非负的 `M/QK p`B#H2,如果它的 K2M 不大,那么这个 `M/QK
p`B#H2 取到非常大的值的概率非常小,而且越大的值概率越小。举个例子,假设中国人
均收入是 ky 万,那么大家想象一下百万富翁,千万富翁甚至亿万富翁在你身边朋友里出
现的概率。
1t2`+Bb2 6BM/ `M/QK p`B#H2 X M/ a > 0 bm+? i?i P (X > a) ≥ EXa - M/ B/2MiB7vr?i #`2Fb BM i?2 T`QQ7 Q7 J`FQpǶb BM2[mHBiv 7Q` i?Bb 2tKTH2X
Mbr2`, *QMbB/2` X iF2b pHm2b 1 M/ −1 rBi? T`Q##BHBiv 1/2 2+?X h?2M- BiǶb +H2`Hv
i?i EX = 0X G2i a = 0.5- MQi2 i?i
0.5 = P (X > a) ≥ EX
a
= 0
h?2 J`FQpǶb AM2[mHBiv #`2Fb /m2 iQ i?2 7+i i?iX Bb MQi MQM@M2;iBp2 `M/QK p`B#H2X
Re
Sa
vvy
Un
i
Li
64
49
19091121319
h?2Q`2K kXk U*?2#vb?2pǶb AM2[mHBivV G2i X #2 M `#Bi``v `M/QK p`B#H2 rBi?
}MBi2 K2M µX X h?2M ∀a > 0-
P (|X − µX | ≥ a) ≤ o(X)
a2
这个不等式是上面 J`FQpǶb AM2[mHBiv 的一个 bT2+BH +b2- BX2X- Y = (X − EX)2-注意这
里取消了非负的条件。
直观解释是一个 `M/QK p`B#H2- 越远离它的 K2M,发生的概率就越小。举个例子,
假设中国男性平均身高是 RXdK,那么走在马路上遇到一个 RX8K 以下或者 RXNK 以上的男
性概率肯定是不高的,更不要说 RXkK 以下或者 kXkK 以上的男性了。
h?2Q`2K kXj U*?2`MQzǶb AM2[mHBivV 6Q` 2p2`v t > 0-
P (X > a) ≤ mX(t)e−at.
S`QQ7X
P (X > a) = P (tX ≥ ta), r?2`2 t > 0
= P (etX ≥ eta), ex Bb M BM+`2bBM; 7mM+iBQM
≤ Ee
tX
eat
, "v J`FQpǶb AM2[mHBiv
≤ mX(t)e−at
上述三个定理本质上都在研究 `M/QK p`B#H2 偏离它 K2M 的概率的问题,那到底有
什么区别呢?最根本的区别在于计算出来的概率的精度。我先举个例子,如果我现在告诉
你身边有亿万富翁的概率小于 8yW,你会不会觉得这是句废话。但是如果我告诉你这个
概率小于 yXy8W,你会觉得嗯这个概率很准确,确实很低。
回到上述三个定理- 当 a 足够大之后,决定概率大小的主要区别在于
J`FQp 1/a
*?2#vb?2p 1/a2
*?2`MQz 1/ea
Rd
Sa
vvy
Un
i
Li
64
49
19091121319
kXk aQK2 Pi?2` AKTQ`iMi AM2[mHBiB2b
h?2Q`2K kX9 UC2Mb2MǶb AM2[mHBivV A7 f Bb +QMp2t 7mM+iBQM M/ X Bb `M/QK p`B@
#H2 bm+? i?i f(X) Bb BMi2;`#H2-
f(E(X)) ≤ E(f(X)).
h?2 BM2[mHBiv Bb ~BTT2/ B7 f Bb +QM+p2X
R3
Sa
vvy
Un
i
Li
64
49
19091121319
h?2Q`2K kX8 U*m+?v@a+?r`x AM2[mHBivV
|*Qp(X, Y )| ≤
√
o(X)o(Y )
RN
Sa
vvy
Un
i
Li
64
49
19091121319
学霸联盟