作者:M. Jordan,J. Kleinberg,B. Schokopf 页数:749 出版社:Springer Science+Business Media |
在数据中寻找模式是一个基本的问题,有着悠久而成功的历史。例如,16世纪对第谷·布拉赫的广泛天文观测使约翰内斯·开普勒发现了行星运动的经验定律,这反过来又为clas的发展提供了跳板 硅力学。同样,原子光谱规律的发现在二十世纪初的量子物理学的发展和验证中起到了关键作用 二十世纪。模式识别领域涉及到自动discov 通过使用计算机算法对数据中的规律性进行分类,并利用这些规律采取措施,如将数据分类为不同的类别。以识别手写数字为例,如图1.1所示。每个数字对应一个28×28像素的图像,因此可以由包含784个实数的向量x来表示。我们的目标是建立一台机器,它将向量x作为输入,并产生数字0,…,9的恒等式作为输出。这是一个非常重要的问题,因为手写体的变化很大。可能是1 2 1。简介图1.1手写挖掘示例 它来自美国的邮政编码。使用手工规则或启发式方法根据笔划的形状来区分数字,但在实践中,这种方法会导致规则和规则的例外情况的激增等等,并且总是产生很差的结果。采用一种机器学习方法可以得到更好的结果,在这种方法中,使用称为训练集的N个数字的大集合{x1,…,xN}来调整自适应模型的参数。训练集中的数字的类别是预先知道的,通常是通过单独检查它们并手动标记它们。我们可以用目标向量t来表示数字的类别,目标向量t表示对应数字的同一性。代表美食的合适技巧 关于向量的血球将在后面讨论。注意,对于每个数字图像x有一个这样的目标向量t。运行机器学习算法的结果可以表示为函数y(x),该函数以新的数字图像x作为输入,并且生成以与目标向量相同的方式编码的输出向量y。函数y(x)的精确形式是在训练阶段(也称为学习阶段)根据训练数据确定的。一旦模型经过训练,它就可以 确定新数字图像的身份,这些图像被称为组成一个测试集。对不同于训练用的新例子进行正确分类的能力 这就是所谓的泛化。在实际应用中,输入向量的可变性使得训练数据只包含所有可能输入向量的一小部分,因此泛化是模式识别的中心目标。对于大多数实际应用,原始输入变量通常是预处理变量 把它们转换成一些新的变量空间,希望模式识别问题更容易解决。例如,在数字识别中 在这个问题上,数字的图像通常被转换和缩放,以便每个数字都包含在一个固定大小的框中。这大大减少了每个数字类别内的可变性,因为所有数字的位置和比例现在都相同,这使得后续的模式识别算法更容易区分不同类别。这个预处理阶段有时也称为特征提取。请注意,新的测试数据必须使用与训练数据相同的步骤进行预处理。为了加速计算,还可以进行预处理。例如,如果目标是高分辨率视频流中的实时人脸检测,则计算机必须每秒处理大量像素,并且将这些像素直接呈现给复杂的模式识别算法可能在计算上不可行 可悲的。取而代之的是,我们的目标是找到有用的特征,这些特征计算速度很快,而1.引言3还保留了有用的区别信息,使人脸能够与非人脸区分开来。然后将这些特征作为模式识别算法的输入。例如,可以非常有效地评估矩形子区域上图像强度的平均值(Viola和Jones,2004),并且一组这样的特征可以证明在快速人脸检测中非常有效。由于这些特征的数量小于像素的数量,这种预处理代表了一种降维形式。在预处理过程中必须小心,因为信息常常会被丢弃,如果这些信息对问题的解决非常重要,那么系统的整体准确性就会受到影响。
目录
前言七
数学符号
目录十三
1引言1
1.1示例:多项式曲线拟合。4
1.2概率论。12
1.2.1概率密度。17
1.2.2期望值和协方差。19
1.2.3贝叶斯概率。21
1.2.4高斯分布。24
1.2.5曲线拟合复检。28
1.2.6贝叶斯曲线拟合。30
1.3选型。32
1.4维度的诅咒。33
1.5决策理论。38
1.5.1最小化误分类率。39
1.5.2尽量减少预期损失。41
1.5.3拒绝选项。42
1.5.4推理和决策。42
1.5.5回归损失函数。46
1.6信息论。48
1.6.1相对熵和互信息。55
练习。58
十三
十四、目录
2概率分布67
2.1二进制变量。68
2.1.1β分布。71
2.2多项式变量。74
2.2.1狄氏分布。76
2.3高斯分布。78
2.3.1条件高斯分布。85
2.3.2边际高斯分布。88
2.3.3高斯变量的贝叶斯定理。90
2.3.4高斯分布的最大可能性。93
2.3.5序贯估计。94
2.3.6高斯分布的贝叶斯推断。97
2.3.7学生的t分布。102
2.3.8周期变量。105
2.3.9高斯混合。110
2.4指数族。113
2.4.1最大可能性和充分统计。116
2.4.2共轭先验。117
2.4.3非信息先验。117
2.5非参数方法。120
2.5.1核密度估计器。122
2.5.2最近邻法。124
练习。127
3回归的线性模型137
3.1线性基函数模型。138
3.1.1最大似然法和最小二乘法。140
3.1.2最小二乘法几何。143
3.1.3顺序学习。143
3.1.4正则化最小二乘法。144
3.1.5多重输出。146
3.2偏差方差分解。147
3.3贝叶斯线性回归。152
3.3.1参数分布。152
3.3.2预测分布。156
3.3.3等效内核。159
3.4贝叶斯模型比较。161
3.5证据近似。165
3.5.1证据功能的评估。166
3.5.2最大化证据函数。168
3.5.3有效参数数。170
3.6固定基函数的限制。172
练习。173
目录十五
4分类线性模型179
4.1判别函数。181
4.1.1两类。181
4.1.2多类。182
4.1.3分类最小二乘法。184
4.1.4费希尔线性判别法。186
4.1.5与最小二乘法的关系。
4.1.5与最小二乘法的关系。189
4.1.6多类的Fisher判别法。191
4.1.7感知器算法。192
4.2概率生成模型。196
4.2.1连续输入。198
4.2.2最大似然解。200
4.2.3离散特征。202
4.2.4指数族。202
4.3概率判别模型。203
4.3.1固定基函数。204
4.3.2逻辑回归。205
4.3.3迭代加权最小二乘法。207
4.3.4多类逻辑回归。209
4.3.5概率回归。210
4.3.6规范链接函数。212
4.4拉普拉斯近似。213
4.4.1模型比较和BIC。216
4.5贝叶斯逻辑回归。217
4.5.1拉普拉斯近似法。217
4.5.2预测分布。218
练习。220
5神经网络225
5.1前馈网络功能。227
5.1.1重量空间对称性。231
5.2网络培训。232
5.2.1参数优化。236
5.2.2局部二次近似。237
5.2.3梯度信息的使用。239
5.2.4梯度下降优化。240
5.3误差反向传播。241
5.3.1误差函数导数的评估。242
5.3.2一个简单的例子。245
5.3.3反向传播效率。246
5.3.4雅可比矩阵。247
5.4海森矩阵。249
5.4.1对角线近似。250
5.4.2外积近似值。251
5.4.3逆黑森函数。252
十六、目录
5.4.4有限差分。252
5.4.5黑森河的准确评估。253
5.4.6黑森函数的快速乘法。254
5.5神经网络中的正则化。256
5.5.1一致高斯先验。257
5.5.2提前停车。259
5.5.3不变性。261
5.5.4切线传播。263
5.5.5使用转换数据进行培训。265
5.5.6卷积网络。267
5.5.7软重量分担。269
5.6混合密度网络。272
5.7贝叶斯神经网络。277
5.7.1后验参数分布。278
5.7.2超参数优化。280
5.7.3分类用贝叶斯神经网络。281
练习。284
6内核方法291
6.1双重陈述。293
6.2构建内核。294
6.3径向基函数网络。299
6.3.1 Nadaraya Watson模型。301
6.4高斯过程。303
6.4.1重新审视线性回归。304
6.4.2回归的高斯过程。306
6.4.3学习超参数。311
6.4.4自动相关性确定。312
6.4.5用于分类的高斯过程。313
6.4.6拉普拉斯近似法。315
6.4.7与神经网络的连接。319
练习。
练习。320
7稀疏内核机器325
7.1最大边距分类器。326
7.1.1重叠类分布。331
7.1.2与逻辑回归的关系。336
7.1.3多类支持向量机。338
7.1.4回归支持向量机。339
7.1.5计算学习理论。344
7.2相关向量机。345
7.2.1回归的RVM。345
7.2.2稀疏性分析。349
7.2.3 RVM分类。353
练习。357
目录十七
8图形模型359
8.1贝叶斯网络。360
8.1.1示例:多项式回归。362
8.1.2生成模型。365
8.1.3离散变量。366
8.1.4线性高斯模型。370
8.2条件独立性。372
8.2.1三个示例图。373
8.2.2 D-分离。378
8.3马尔可夫随机场。383
8.3.1条件独立性。383
8.3.2因子分解特性。384
8.3.3图示:图像去噪。387
8.3.4与有向图的关系。390
8.4图形模型中的推理。393
8.4.1链上的推断。394
8.4.2树木。398
8.4.3因子图。399
8.4.4和积算法。402
8.4.5最大和算法。411
8.4.6一般图中的精确推断。416
8.4.7循环信念传播。417
8.4.8学习图形结构。418
练习。418
9个混合模型和EM 423
9.1 K-均值聚类。424
9.1.1图像分割和压缩。428
9.2高斯混合。430
9.2.1最大可能性。432
9.2.2高斯混合的EM。435
9.3 EM的另一种观点。439
9.3.1重新讨论高斯混合。441
9.3.2与K-均值的关系。443
9.3.3伯努利分布的混合物。444
9.3.4贝叶斯线性回归的EM。448
9.4 EM算法。450
练习。455
10近似推理461
10.1变分推理。462
10.1.1因式分布。464
10.1.2因式分解近似的性质。466
10.1.3示例:单变量高斯分布。470
10.1.4型号比较。473
10.2说明:高斯变量混合。474
十八目录
10.2.1变分分布。475
10.2.2变分下限。481
10.2.3预测密度。482
10.2.4确定部件数量。483
10.2.5诱导因子分解。485
10.3变分线性回归。486
10.3.1变分分布。486
10.3.2预测分布。488
10.3.3下限。489
10.4指数族分布。490
10.4.1可变信息传递。491
10.5局部变分法。493
10.6变分测井10.6变分逻辑回归。498
10.6.1变分后验分布。498
10.6.2优化变分参数。500
10.6.3超参数推断。502
10.7预期传播。505
10.7.1示例:杂波问题。511
10.7.2图上的期望传播。513
练习。517
11抽样方法523
11.1基本采样算法。526
11.1.1标准分布。526
11.1.2拒收取样。528
11.1.3自适应抑制采样。530
11.1.4重要性抽样。532
11.1.5采样重要性重采样。534
11.1.6采样和EM算法。536
11.2马尔可夫链蒙特卡罗法。537
11.2.1马尔可夫链。539
11.2.2 Metropolis-Hastings算法。541
11.3吉布斯取样。542
11.4切片取样。546
11.5混合蒙特卡罗算法。548
11.5.1动力系统。548
11.5.2混合蒙特卡罗法。552
11.6估计配分函数。554
练习。556
12连续潜变量559
12.1主成分分析。561
12.1.1最大方差公式。561
12.1.2最小误差公式。563
12.1.3 PCA的应用。565
12.1.4高维数据的主成分分析。569
目录十九
12.2概率主成分分析。570
12.2.1最大似然PCA。574
12.2.2主成分分析的EM算法。577
12.2.3贝叶斯主成分分析。580
12.2.4因子分析。583
12.3内核PCA。586
12.4非线性潜变量模型。591
12.4.1独立成分分析。591
12.4.2自联想神经网络。592
12.4.3非线性流形建模。595
练习。599
13顺序数据605
13.1马尔可夫模型。607
13.2隐马尔可夫模型。610
13.2.1 HMM的最大可能性。615
13.2.2前后向算法。618
13.2.3 HMM的和积算法。625
13.2.4比例因子。627
13.2.5维特比算法。629
13.2.6隐马尔可夫模型的扩展。631
13.3线性动力系统。635
13.3.1 LDS中的推断。638
13.3.2 LDS学习。642
13.3.3 LDS的扩展。644
13.3.4微粒过滤器。645
练习。646
14组合模型653
14.1贝叶斯模型平均。654
14.2委员会。655
14.3增压。657
14.3.1最小化指数误差。659
14.3.2升压误差函数。661
14.4基于树的模型。663
14.5条件混合模型。666
14.5.1线性回归模型的混合。667
14.5.2逻辑模型的混合。670
14.5.3专家混合物。672
练习
练习。674
附录A数据集677
附录B概率分布685
附录C矩阵的性质695
xx目录
附录D变分法703
附录E拉格朗日乘数707
参考文献711
索引729
Contents
Preface vii
Mathematical notation xi
Contents xiii
1 Introduction 1
1.1 Example: Polynomial Curve Fitting . 4
1.2 Probability Theory12
1.2.1 Probability densities . 17
1.2.2 Expectations and covariances 19
1.2.3 Bayesian probabilities 21
1.2.4 The Gaussian distribution24
1.2.5 Curve fitting re-visited 28
1.2.6 Bayesian curve fitting 30
1.3 Model Selection. 32
1.4 The Curse of Dimensionality . 33
1.5 Decision Theory. 38
1.5.1 Minimizing the misclassification rate 39
1.5.2 Minimizing the expected loss 41
1.5.3 The reject option. 42
1.5.4 Inference and decision 42
1.5.5 Loss functions for regression . 46
1.6 Information Theory48
1.6.1 Relative entropy and mutual information55
Exercises58
xiii
xiv CONTENTS
2 Probability Distributions 67
2.1 Binary Variables. 68
2.1.1 The beta distribution . 71
2.2 Multinomial Variables 74
2.2.1 The Dirichlet distribution. 76
2.3 The Gaussian Distribution78
2.3.1 Conditional Gaussian distributions85
2.3.2 Marginal Gaussian distributions. 88
2.3.3 Bayes’ theorem for Gaussian variables 90
2.3.4 Maximum likelihood for the Gaussian 93
2.3.5 Sequential estimation . 94
2.3.6 Bayesian inference for the Gaussian . 97
2.3.7 Student’s t-distribution 102
2.3.8 Periodic variables. 105
2.3.9 Mixtures of Gaussians 110
2.4 The Exponential Family. 113
2.4.1 Maximum likelihood and sufficient statistics 116
2.4.2 Conjugate priors. 117
2.4.3 Noninformative priors 117
2.5 Nonparametric Methods. 120
2.5.1 Kernel density estimators. 122
2.5.2 Nearest-neighbour methods . 124
Exercises127
3 Linear Models for Regression 137
3.1 Linear Basis Function Models 138
3.1.1 Maximum likelihood and least squares 140
3.1.2 Geometry of least squares143
3.1.3 Sequential learning143
3.1.4 Regularized least squares. 144
3.1.5 Multiple outputs. 146
3.2 The Bias-Variance Decomposition147
3.3 Bayesian Linear Regression . 152
3.3.1 Parameter distribution 152
3.3.2 Predictive distribution 156
3.3.3 Equivalent kernel. 159
3.4 Bayesian Model Comparison . 161
3.5 The Evidence Approximation 165
3.5.1 Evaluation of the evidence function . 166
3.5.2 Maximizing the evidence function168
3.5.3 Effective number of parameters. 170
3.6 Limitations of Fixed Basis Functions 172
Exercises173
CONTENTS xv
4 Linear Models for Classification 179
4.1 Discriminant Functions 181
4.1.1 Two classes181
4.1.2 Multiple classes 182
4.1.3 Least squares for classification 184
4.1.4 Fisher’s linear discriminant186
4.1.5 Relation to least squares. 189
4.1.6 Fisher’s discriminant for multiple classes191
4.1.7 The perceptron algorithm. 192
4.2 Probabilistic Generative Models. 196
4.2.1 Continuous inputs198
4.2.2 Maximum likelihood solution 200
4.2.3 Discrete features. 202
4.2.4 Exponential family202
4.3 Probabilistic Discriminative Models . 203
4.3.1 Fixed basis functions . 204
4.3.2 Logistic regression205
4.3.3 Iterative reweighted least squares207
4.3.4 Multiclass logistic regression . 209
4.3.5 Probit regression. 210
4.3.6 Canonical link functions. 212
4.4 The Laplace Approximation . 213
4.4.1 Model comparison and BIC . 216
4.5 Bayesian Logistic Regression 217
4.5.1 Laplace approximation 217
4.5.2 Predictive distribution 218
Exercises220
5 Neural Networks 225
5.1 Feed-forward Network Functions227
5.1.1 Weight-space symmetries231
5.2 Network Training. 232
5.2.1 Parameter optimization 236
5.2.2 Local quadratic approximation 237
5.2.3 Use of gradient information . 239
5.2.4 Gradient descent optimization 240
5.3 Error Backpropagation 241
5.3.1 Evaluation of error-function derivatives. 242
5.3.2 A simple example245
5.3.3 Efficiency of backpropagation 246
5.3.4 The Jacobian matrix . 247
5.4 The Hessian Matrix249
5.4.1 Diagonal approximation. 250
5.4.2 Outer product approximation . 251
5.4.3 Inverse Hessian 252
xvi CONTENTS
5.4.4 Finite differences. 252
5.4.5 Exact evaluation of the Hessian. 253
5.4.6 Fast multiplication by the Hessian254
5.5 Regularization in Neural Networks . 256
5.5.1 Consistent Gaussian priors257
5.5.2 Early stopping 259
5.5.3 Invariances261
5.5.4 Tangent propagation . 263
5.5.5 Training with transformed data 265
5.5.6 Convolutional networks. 267
5.5.7 Soft weight sharing269
5.6 Mixture Density Networks272
5.7 Bayesian Neural Networks277
5.7.1 Posterior parameter distribution. 278
5.7.2 Hyperparameter optimization 280
5.7.3 Bayesian neural networks for classification . 281
Exercises284
6 Kernel Methods 291
6.1 Dual Representations . 293
6.2 Constructing Kernels . 294
6.3 Radial Basis Function Networks. 299
6.3.1 Nadaraya-Watson model. 301
6.4 Gaussian Processes303
6.4.1 Linear regression revisited304
6.4.2 Gaussian processes for regression306
6.4.3 Learning the hyperparameters 311
6.4.4 Automatic relevance determination . 312
6.4.5 Gaussian processes for classification . 313
6.4.6 Laplace approximation 315
6.4.7 Connection to neural networks 319
Exercises320
7 Sparse Kernel Machines 325
7.1 Maximum Margin Classifiers 326
7.1.1 Overlapping class distributions 331
7.1.2 Relation to logistic regression 336
7.1.3 Multiclass SVMs. 338
7.1.4 SVMs for regression . 339
7.1.5 Computational learning theory 344
7.2 Relevance Vector Machines . 345
7.2.1 RVM for regression345
7.2.2 Analysis of sparsity349
7.2.3 RVM for classification 353
Exercises357
CONTENTS xvii
8 Graphical Models 359
8.1 Bayesian Networks360
8.1.1 Example: Polynomial regression. 362
8.1.2 Generative models365
8.1.3 Discrete variables. 366
8.1.4 Linear-Gaussian models. 370
8.2 Conditional Independence372
8.2.1 Three example graphs 373
8.2.2 D-separation . 378
8.3 Markov Random Fields. 383
8.3.1 Conditional independence properties . 383
8.3.2 Factorization properties. 384
8.3.3 Illustration: Image de-noising 387
8.3.4 Relation to directed graphs390
8.4 Inference in Graphical Models 393
8.4.1 Inference on a chain . 394
8.4.2 Trees . 398
8.4.3 Factor graphs . 399
8.4.4 The sum-product algorithm402
8.4.5 The max-sum algorithm. 411
8.4.6 Exact inference in general graphs416
8.4.7 Loopy belief propagation. 417
8.4.8 Learning the graph structure . 418
Exercises418
9 Mixture Models and EM 423
9.1 K-means Clustering . 424
9.1.1 Image segmentation and compression 428
9.2 Mixtures of Gaussians 430
9.2.1 Maximum likelihood . 432
9.2.2 EM for Gaussian mixtures435
9.3 An Alternative View of EM . 439
9.3.1 Gaussian mixtures revisited . 441
9.3.2 Relation to K-means . 443
9.3.3 Mixtures of Bernoulli distributions444
9.3.4 EM for Bayesian linear regression448
9.4 The EM Algorithm in General 450
Exercises455
10 Approximate Inference 461
10.1 Variational Inference . 462
10.1.1 Factorized distributions 464
10.1.2 Properties of factorized approximations. 466
10.1.3 Example: The univariate Gaussian470
10.1.4 Model comparison473
10.2 Illustration: Variational Mixture of Gaussians 474
xviii CONTENTS
10.2.1 Variational distribution 475
10.2.2 Variational lower bound. 481
10.2.3 Predictive density. 482
10.2.4 Determining the number of components. 483
10.2.5 Induced factorizations 485
10.3 Variational Linear Regression 486
10.3.1 Variational distribution 486
10.3.2 Predictive distribution 488
10.3.3 Lower bound . 489
10.4 Exponential Family Distributions490
10.4.1 Variational message passing . 491
10.5 Local Variational Methods493
10.6 Variational Logistic Regression. 498
10.6.1 Variational posterior distribution. 498
10.6.2 Optimizing the variational parameters 500
10.6.3 Inference of hyperparameters 502
10.7 Expectation Propagation. 505
10.7.1 Example: The clutter problem 511
10.7.2 Expectation propagation on graphs513
Exercises517
11 Sampling Methods 523
11.1 Basic Sampling Algorithms . 526
11.1.1 Standard distributions 526
11.1.2 Rejection sampling528
11.1.3 Adaptive rejection sampling . 530
11.1.4 Importance sampling . 532
11.1.5 Sampling-importance-resampling534
11.1.6 Sampling and the EM algorithm. 536
11.2 Markov Chain Monte Carlo . 537
11.2.1 Markov chains 539
11.2.2 The Metropolis-Hastings algorithm . 541
11.3 Gibbs Sampling. 542
11.4 Slice Sampling 546
11.5 The Hybrid Monte Carlo Algorithm . 548
11.5.1 Dynamical systems548
11.5.2 Hybrid Monte Carlo . 552
11.6 Estimating the Partition Function554
Exercises556
12 Continuous Latent Variables 559
12.1 Principal Component Analysis 561
12.1.1 Maximum variance formulation. 561
12.1.2 Minimum-error formulation . 563
12.1.3 Applications of PCA . 565
12.1.4 PCA for high-dimensional data. 569
CONTENTS xix
12.2 Probabilistic PCA570
12.2.1 Maximum likelihood PCA574
12.2.2 EM algorithm for PCA 577
12.2.3 Bayesian PCA 580
12.2.4 Factor analysis 583
12.3 Kernel PCA586
12.4 Nonlinear Latent Variable Models591
12.4.1 Independent component analysis. 591
12.4.2 Autoassociative neural networks. 592
12.4.3 Modelling nonlinear manifolds 595
Exercises599
13 Sequential Data 605
13.1 Markov Models 607
13.2 Hidden Markov Models. 610
13.2.1 Maximum likelihood for the HMM . 615
13.2.2 The forward-backward algorithm618
13.2.3 The sum-product algorithm for the HMM625
13.2.4 Scaling factors 627
13.2.5 The Viterbi algorithm . 629
13.2.6 Extensions of the hidden Markov model. 631
13.3 Linear Dynamical Systems635
13.3.1 Inference in LDS. 638
13.3.2 Learning in LDS. 642
13.3.3 Extensions of LDS644
13.3.4 Particle filters . 645
Exercises646
14 Combining Models 653
14.1 Bayesian Model Averaging654
14.2 Committees655
14.3 Boosting. 657
14.3.1 Minimizing exponential error 659
14.3.2 Error functions for boosting . 661
14.4 Tree-based Models663
14.5 Conditional Mixture Models . 666
14.5.1 Mixtures of linear regression models . 667
14.5.2 Mixtures of logistic models . 670
14.5.3 Mixtures of experts672
Exercises674
Appendix A Data Sets 677
Appendix B Probability Distributions 685
Appendix C Properties of Matrices 695
xx CONTENTS
Appendix D Calculus of Variations 703
Appendix E Lagrange Multipliers 707
References 711
Index 729