资料下载网
首页 计算机 考试教辅
Pattern Recognition and Machine Learning_模式识别与机器学习(英文彩色版)_M Jordan著 pdf电子书免费下载
首页 > 计算机 > AI人工智能 > Pattern Recognition and Machine Learning_模式识别与机器学习(英文彩色版)_M Jordan著 pdf电子书免费下载

《Pattern Recognition and Machine Learning_模式识别与机器学习(英文彩色版)_M Jordan著》pdf电子书免费下载


下载方式一:

百度网盘下载地址:https://pan.baidu.com/s/1ivbqvT9z_wkswpDJ_prkvw
百度网盘密码:1111

下载方式二:

http://ziliaoshare.cn/Download/ab_123505_pd_InformationScienceandStatistics_MSSBYJQXX(YWCSB)_MJordanZ.zip

 


Pattern Recognition and Machine Learning_模式识别与机器学习(英文彩色版)_M Jordan著

作者:M. Jordan,J. Kleinberg,B. Schokopf

页数:749

出版社:Springer Science+Business Media

《Pattern Recognition and Machine Learning_模式识别与机器学习(英文彩色版)_M Jordan著》介绍

在数据中寻找模式是一个基本的问题,有着悠久而成功的历史。例如,16世纪对第谷·布拉赫的广泛天文观测使约翰内斯·开普勒发现了行星运动的经验定律,这反过来又为clas的发展提供了跳板 硅力学。同样,原子光谱规律的发现在二十世纪初的量子物理学的发展和验证中起到了关键作用 二十世纪。模式识别领域涉及到自动discov 通过使用计算机算法对数据中的规律性进行分类,并利用这些规律采取措施,如将数据分类为不同的类别。以识别手写数字为例,如图1.1所示。每个数字对应一个28×28像素的图像,因此可以由包含784个实数的向量x来表示。我们的目标是建立一台机器,它将向量x作为输入,并产生数字0,…,9的恒等式作为输出。这是一个非常重要的问题,因为手写体的变化很大。可能是1 2 1。简介图1.1手写挖掘示例 它来自美国的邮政编码。使用手工规则或启发式方法根据笔划的形状来区分数字,但在实践中,这种方法会导致规则和规则的例外情况的激增等等,并且总是产生很差的结果。采用一种机器学习方法可以得到更好的结果,在这种方法中,使用称为训练集的N个数字的大集合{x1,…,xN}来调整自适应模型的参数。训练集中的数字的类别是预先知道的,通常是通过单独检查它们并手动标记它们。我们可以用目标向量t来表示数字的类别,目标向量t表示对应数字的同一性。代表美食的合适技巧 关于向量的血球将在后面讨论。注意,对于每个数字图像x有一个这样的目标向量t。运行机器学习算法的结果可以表示为函数y(x),该函数以新的数字图像x作为输入,并且生成以与目标向量相同的方式编码的输出向量y。函数y(x)的精确形式是在训练阶段(也称为学习阶段)根据训练数据确定的。一旦模型经过训练,它就可以 确定新数字图像的身份,这些图像被称为组成一个测试集。对不同于训练用的新例子进行正确分类的能力 这就是所谓的泛化。在实际应用中,输入向量的可变性使得训练数据只包含所有可能输入向量的一小部分,因此泛化是模式识别的中心目标。对于大多数实际应用,原始输入变量通常是预处理变量 把它们转换成一些新的变量空间,希望模式识别问题更容易解决。例如,在数字识别中 在这个问题上,数字的图像通常被转换和缩放,以便每个数字都包含在一个固定大小的框中。这大大减少了每个数字类别内的可变性,因为所有数字的位置和比例现在都相同,这使得后续的模式识别算法更容易区分不同类别。这个预处理阶段有时也称为特征提取。请注意,新的测试数据必须使用与训练数据相同的步骤进行预处理。为了加速计算,还可以进行预处理。例如,如果目标是高分辨率视频流中的实时人脸检测,则计算机必须每秒处理大量像素,并且将这些像素直接呈现给复杂的模式识别算法可能在计算上不可行 可悲的。取而代之的是,我们的目标是找到有用的特征,这些特征计算速度很快,而1.引言3还保留了有用的区别信息,使人脸能够与非人脸区分开来。然后将这些特征作为模式识别算法的输入。例如,可以非常有效地评估矩形子区域上图像强度的平均值(Viola和Jones,2004),并且一组这样的特征可以证明在快速人脸检测中非常有效。由于这些特征的数量小于像素的数量,这种预处理代表了一种降维形式。在预处理过程中必须小心,因为信息常常会被丢弃,如果这些信息对问题的解决非常重要,那么系统的整体准确性就会受到影响。


《Pattern Recognition and Machine Learning_模式识别与机器学习(英文彩色版)_M Jordan著》目录

目录

前言七

数学符号

目录十三

1引言1

1.1示例:多项式曲线拟合。4

1.2概率论。12

1.2.1概率密度。17

1.2.2期望值和协方差。19

1.2.3贝叶斯概率。21

1.2.4高斯分布。24

1.2.5曲线拟合复检。28

1.2.6贝叶斯曲线拟合。30

1.3选型。32

1.4维度的诅咒。33

1.5决策理论。38

1.5.1最小化误分类率。39

1.5.2尽量减少预期损失。41

1.5.3拒绝选项。42

1.5.4推理和决策。42

1.5.5回归损失函数。46

1.6信息论。48

1.6.1相对熵和互信息。55

练习。58

十三

十四、目录

2概率分布67

2.1二进制变量。68

2.1.1β分布。71

2.2多项式变量。74

2.2.1狄氏分布。76

2.3高斯分布。78

2.3.1条件高斯分布。85

2.3.2边际高斯分布。88

2.3.3高斯变量的贝叶斯定理。90

2.3.4高斯分布的最大可能性。93

2.3.5序贯估计。94

2.3.6高斯分布的贝叶斯推断。97

2.3.7学生的t分布。102

2.3.8周期变量。105

2.3.9高斯混合。110

2.4指数族。113

2.4.1最大可能性和充分统计。116

2.4.2共轭先验。117

2.4.3非信息先验。117

2.5非参数方法。120

2.5.1核密度估计器。122

2.5.2最近邻法。124

练习。127

3回归的线性模型137

3.1线性基函数模型。138

3.1.1最大似然法和最小二乘法。140

3.1.2最小二乘法几何。143

3.1.3顺序学习。143

3.1.4正则化最小二乘法。144

3.1.5多重输出。146

3.2偏差方差分解。147

3.3贝叶斯线性回归。152

3.3.1参数分布。152

3.3.2预测分布。156

3.3.3等效内核。159

3.4贝叶斯模型比较。161

3.5证据近似。165

3.5.1证据功能的评估。166

3.5.2最大化证据函数。168

3.5.3有效参数数。170

3.6固定基函数的限制。172

练习。173

目录十五

4分类线性模型179

4.1判别函数。181

4.1.1两类。181

4.1.2多类。182

4.1.3分类最小二乘法。184

4.1.4费希尔线性判别法。186

4.1.5与最小二乘法的关系。

4.1.5与最小二乘法的关系。189

4.1.6多类的Fisher判别法。191

4.1.7感知器算法。192

4.2概率生成模型。196

4.2.1连续输入。198

4.2.2最大似然解。200

4.2.3离散特征。202

4.2.4指数族。202

4.3概率判别模型。203

4.3.1固定基函数。204

4.3.2逻辑回归。205

4.3.3迭代加权最小二乘法。207

4.3.4多类逻辑回归。209

4.3.5概率回归。210

4.3.6规范链接函数。212

4.4拉普拉斯近似。213

4.4.1模型比较和BIC。216

4.5贝叶斯逻辑回归。217

4.5.1拉普拉斯近似法。217

4.5.2预测分布。218

练习。220

5神经网络225

5.1前馈网络功能。227

5.1.1重量空间对称性。231

5.2网络培训。232

5.2.1参数优化。236

5.2.2局部二次近似。237

5.2.3梯度信息的使用。239

5.2.4梯度下降优化。240

5.3误差反向传播。241

5.3.1误差函数导数的评估。242

5.3.2一个简单的例子。245

5.3.3反向传播效率。246

5.3.4雅可比矩阵。247

5.4海森矩阵。249

5.4.1对角线近似。250

5.4.2外积近似值。251

5.4.3逆黑森函数。252

十六、目录

5.4.4有限差分。252

5.4.5黑森河的准确评估。253

5.4.6黑森函数的快速乘法。254

5.5神经网络中的正则化。256

5.5.1一致高斯先验。257

5.5.2提前停车。259

5.5.3不变性。261

5.5.4切线传播。263

5.5.5使用转换数据进行培训。265

5.5.6卷积网络。267

5.5.7软重量分担。269

5.6混合密度网络。272

5.7贝叶斯神经网络。277

5.7.1后验参数分布。278

5.7.2超参数优化。280

5.7.3分类用贝叶斯神经网络。281

练习。284

6内核方法291

6.1双重陈述。293

6.2构建内核。294

6.3径向基函数网络。299

6.3.1 Nadaraya Watson模型。301

6.4高斯过程。303

6.4.1重新审视线性回归。304

6.4.2回归的高斯过程。306

6.4.3学习超参数。311

6.4.4自动相关性确定。312

6.4.5用于分类的高斯过程。313

6.4.6拉普拉斯近似法。315

6.4.7与神经网络的连接。319

练习。

练习。320

7稀疏内核机器325

7.1最大边距分类器。326

7.1.1重叠类分布。331

7.1.2与逻辑回归的关系。336

7.1.3多类支持向量机。338

7.1.4回归支持向量机。339

7.1.5计算学习理论。344

7.2相关向量机。345

7.2.1回归的RVM。345

7.2.2稀疏性分析。349

7.2.3 RVM分类。353

练习。357

目录十七

8图形模型359

8.1贝叶斯网络。360

8.1.1示例:多项式回归。362

8.1.2生成模型。365

8.1.3离散变量。366

8.1.4线性高斯模型。370

8.2条件独立性。372

8.2.1三个示例图。373

8.2.2 D-分离。378

8.3马尔可夫随机场。383

8.3.1条件独立性。383

8.3.2因子分解特性。384

8.3.3图示:图像去噪。387

8.3.4与有向图的关系。390

8.4图形模型中的推理。393

8.4.1链上的推断。394

8.4.2树木。398

8.4.3因子图。399

8.4.4和积算法。402

8.4.5最大和算法。411

8.4.6一般图中的精确推断。416

8.4.7循环信念传播。417

8.4.8学习图形结构。418

练习。418

9个混合模型和EM 423

9.1 K-均值聚类。424

9.1.1图像分割和压缩。428

9.2高斯混合。430

9.2.1最大可能性。432

9.2.2高斯混合的EM。435

9.3 EM的另一种观点。439

9.3.1重新讨论高斯混合。441

9.3.2与K-均值的关系。443

9.3.3伯努利分布的混合物。444

9.3.4贝叶斯线性回归的EM。448

9.4 EM算法。450

练习。455

10近似推理461

10.1变分推理。462

10.1.1因式分布。464

10.1.2因式分解近似的性质。466

10.1.3示例:单变量高斯分布。470

10.1.4型号比较。473

10.2说明:高斯变量混合。474

十八目录

10.2.1变分分布。475

10.2.2变分下限。481

10.2.3预测密度。482

10.2.4确定部件数量。483

10.2.5诱导因子分解。485

10.3变分线性回归。486

10.3.1变分分布。486

10.3.2预测分布。488

10.3.3下限。489

10.4指数族分布。490

10.4.1可变信息传递。491

10.5局部变分法。493

10.6变分测井10.6变分逻辑回归。498

10.6.1变分后验分布。498

10.6.2优化变分参数。500

10.6.3超参数推断。502

10.7预期传播。505

10.7.1示例:杂波问题。511

10.7.2图上的期望传播。513

练习。517

11抽样方法523

11.1基本采样算法。526

11.1.1标准分布。526

11.1.2拒收取样。528

11.1.3自适应抑制采样。530

11.1.4重要性抽样。532

11.1.5采样重要性重采样。534

11.1.6采样和EM算法。536

11.2马尔可夫链蒙特卡罗法。537

11.2.1马尔可夫链。539

11.2.2 Metropolis-Hastings算法。541

11.3吉布斯取样。542

11.4切片取样。546

11.5混合蒙特卡罗算法。548

11.5.1动力系统。548

11.5.2混合蒙特卡罗法。552

11.6估计配分函数。554

练习。556

12连续潜变量559

12.1主成分分析。561

12.1.1最大方差公式。561

12.1.2最小误差公式。563

12.1.3 PCA的应用。565

12.1.4高维数据的主成分分析。569

目录十九

12.2概率主成分分析。570

12.2.1最大似然PCA。574

12.2.2主成分分析的EM算法。577

12.2.3贝叶斯主成分分析。580

12.2.4因子分析。583

12.3内核PCA。586

12.4非线性潜变量模型。591

12.4.1独立成分分析。591

12.4.2自联想神经网络。592

12.4.3非线性流形建模。595

练习。599

13顺序数据605

13.1马尔可夫模型。607

13.2隐马尔可夫模型。610

13.2.1 HMM的最大可能性。615

13.2.2前后向算法。618

13.2.3 HMM的和积算法。625

13.2.4比例因子。627

13.2.5维特比算法。629

13.2.6隐马尔可夫模型的扩展。631

13.3线性动力系统。635

13.3.1 LDS中的推断。638

13.3.2 LDS学习。642

13.3.3 LDS的扩展。644

13.3.4微粒过滤器。645

练习。646

14组合模型653

14.1贝叶斯模型平均。654

14.2委员会。655

14.3增压。657

14.3.1最小化指数误差。659

14.3.2升压误差函数。661

14.4基于树的模型。663

14.5条件混合模型。666

14.5.1线性回归模型的混合。667

14.5.2逻辑模型的混合。670

14.5.3专家混合物。672

练习

练习。674

附录A数据集677

附录B概率分布685

附录C矩阵的性质695

xx目录

附录D变分法703

附录E拉格朗日乘数707

参考文献711

索引729

Contents

Preface vii

Mathematical notation xi

Contents xiii

1 Introduction 1

1.1 Example: Polynomial Curve Fitting . 4

1.2 Probability Theory12

1.2.1 Probability densities . 17

1.2.2 Expectations and covariances 19

1.2.3 Bayesian probabilities 21

1.2.4 The Gaussian distribution24

1.2.5 Curve fitting re-visited 28

1.2.6 Bayesian curve fitting 30

1.3 Model Selection. 32

1.4 The Curse of Dimensionality . 33

1.5 Decision Theory. 38

1.5.1 Minimizing the misclassification rate 39

1.5.2 Minimizing the expected loss 41

1.5.3 The reject option. 42

1.5.4 Inference and decision 42

1.5.5 Loss functions for regression . 46

1.6 Information Theory48

1.6.1 Relative entropy and mutual information55

Exercises58

xiii

xiv CONTENTS

2 Probability Distributions 67

2.1 Binary Variables. 68

2.1.1 The beta distribution . 71

2.2 Multinomial Variables 74

2.2.1 The Dirichlet distribution. 76

2.3 The Gaussian Distribution78

2.3.1 Conditional Gaussian distributions85

2.3.2 Marginal Gaussian distributions. 88

2.3.3 Bayes’ theorem for Gaussian variables 90

2.3.4 Maximum likelihood for the Gaussian 93

2.3.5 Sequential estimation . 94

2.3.6 Bayesian inference for the Gaussian . 97

2.3.7 Student’s t-distribution 102

2.3.8 Periodic variables. 105

2.3.9 Mixtures of Gaussians 110

2.4 The Exponential Family. 113

2.4.1 Maximum likelihood and sufficient statistics 116

2.4.2 Conjugate priors. 117

2.4.3 Noninformative priors 117

2.5 Nonparametric Methods. 120

2.5.1 Kernel density estimators. 122

2.5.2 Nearest-neighbour methods . 124

Exercises127

3 Linear Models for Regression 137

3.1 Linear Basis Function Models 138

3.1.1 Maximum likelihood and least squares 140

3.1.2 Geometry of least squares143

3.1.3 Sequential learning143

3.1.4 Regularized least squares. 144

3.1.5 Multiple outputs. 146

3.2 The Bias-Variance Decomposition147

3.3 Bayesian Linear Regression . 152

3.3.1 Parameter distribution 152

3.3.2 Predictive distribution 156

3.3.3 Equivalent kernel. 159

3.4 Bayesian Model Comparison . 161

3.5 The Evidence Approximation 165

3.5.1 Evaluation of the evidence function . 166

3.5.2 Maximizing the evidence function168

3.5.3 Effective number of parameters. 170

3.6 Limitations of Fixed Basis Functions 172

Exercises173

CONTENTS xv

4 Linear Models for Classification 179

4.1 Discriminant Functions 181

4.1.1 Two classes181

4.1.2 Multiple classes 182

4.1.3 Least squares for classification 184

4.1.4 Fisher’s linear discriminant186

4.1.5 Relation to least squares. 189

4.1.6 Fisher’s discriminant for multiple classes191

4.1.7 The perceptron algorithm. 192

4.2 Probabilistic Generative Models. 196

4.2.1 Continuous inputs198

4.2.2 Maximum likelihood solution 200

4.2.3 Discrete features. 202

4.2.4 Exponential family202

4.3 Probabilistic Discriminative Models . 203

4.3.1 Fixed basis functions . 204

4.3.2 Logistic regression205

4.3.3 Iterative reweighted least squares207

4.3.4 Multiclass logistic regression . 209

4.3.5 Probit regression. 210

4.3.6 Canonical link functions. 212

4.4 The Laplace Approximation . 213

4.4.1 Model comparison and BIC . 216

4.5 Bayesian Logistic Regression 217

4.5.1 Laplace approximation 217

4.5.2 Predictive distribution 218

Exercises220

5 Neural Networks 225

5.1 Feed-forward Network Functions227

5.1.1 Weight-space symmetries231

5.2 Network Training. 232

5.2.1 Parameter optimization 236

5.2.2 Local quadratic approximation 237

5.2.3 Use of gradient information . 239

5.2.4 Gradient descent optimization 240

5.3 Error Backpropagation 241

5.3.1 Evaluation of error-function derivatives. 242

5.3.2 A simple example245

5.3.3 Efficiency of backpropagation 246

5.3.4 The Jacobian matrix . 247

5.4 The Hessian Matrix249

5.4.1 Diagonal approximation. 250

5.4.2 Outer product approximation . 251

5.4.3 Inverse Hessian 252

xvi CONTENTS

5.4.4 Finite differences. 252

5.4.5 Exact evaluation of the Hessian. 253

5.4.6 Fast multiplication by the Hessian254

5.5 Regularization in Neural Networks . 256

5.5.1 Consistent Gaussian priors257

5.5.2 Early stopping 259

5.5.3 Invariances261

5.5.4 Tangent propagation . 263

5.5.5 Training with transformed data 265

5.5.6 Convolutional networks. 267

5.5.7 Soft weight sharing269

5.6 Mixture Density Networks272

5.7 Bayesian Neural Networks277

5.7.1 Posterior parameter distribution. 278

5.7.2 Hyperparameter optimization 280

5.7.3 Bayesian neural networks for classification . 281

Exercises284

6 Kernel Methods 291

6.1 Dual Representations . 293

6.2 Constructing Kernels . 294

6.3 Radial Basis Function Networks. 299

6.3.1 Nadaraya-Watson model. 301

6.4 Gaussian Processes303

6.4.1 Linear regression revisited304

6.4.2 Gaussian processes for regression306

6.4.3 Learning the hyperparameters 311

6.4.4 Automatic relevance determination . 312

6.4.5 Gaussian processes for classification . 313

6.4.6 Laplace approximation 315

6.4.7 Connection to neural networks 319

Exercises320

7 Sparse Kernel Machines 325

7.1 Maximum Margin Classifiers 326

7.1.1 Overlapping class distributions 331

7.1.2 Relation to logistic regression 336

7.1.3 Multiclass SVMs. 338

7.1.4 SVMs for regression . 339

7.1.5 Computational learning theory 344

7.2 Relevance Vector Machines . 345

7.2.1 RVM for regression345

7.2.2 Analysis of sparsity349

7.2.3 RVM for classification 353

Exercises357

CONTENTS xvii

8 Graphical Models 359

8.1 Bayesian Networks360

8.1.1 Example: Polynomial regression. 362

8.1.2 Generative models365

8.1.3 Discrete variables. 366

8.1.4 Linear-Gaussian models. 370

8.2 Conditional Independence372

8.2.1 Three example graphs 373

8.2.2 D-separation . 378

8.3 Markov Random Fields. 383

8.3.1 Conditional independence properties . 383

8.3.2 Factorization properties. 384

8.3.3 Illustration: Image de-noising 387

8.3.4 Relation to directed graphs390

8.4 Inference in Graphical Models 393

8.4.1 Inference on a chain . 394

8.4.2 Trees . 398

8.4.3 Factor graphs . 399

8.4.4 The sum-product algorithm402

8.4.5 The max-sum algorithm. 411

8.4.6 Exact inference in general graphs416

8.4.7 Loopy belief propagation. 417

8.4.8 Learning the graph structure . 418

Exercises418

9 Mixture Models and EM 423

9.1 K-means Clustering . 424

9.1.1 Image segmentation and compression 428

9.2 Mixtures of Gaussians 430

9.2.1 Maximum likelihood . 432

9.2.2 EM for Gaussian mixtures435

9.3 An Alternative View of EM . 439

9.3.1 Gaussian mixtures revisited . 441

9.3.2 Relation to K-means . 443

9.3.3 Mixtures of Bernoulli distributions444

9.3.4 EM for Bayesian linear regression448

9.4 The EM Algorithm in General 450

Exercises455

10 Approximate Inference 461

10.1 Variational Inference . 462

10.1.1 Factorized distributions 464

10.1.2 Properties of factorized approximations. 466

10.1.3 Example: The univariate Gaussian470

10.1.4 Model comparison473

10.2 Illustration: Variational Mixture of Gaussians 474

xviii CONTENTS

10.2.1 Variational distribution 475

10.2.2 Variational lower bound. 481

10.2.3 Predictive density. 482

10.2.4 Determining the number of components. 483

10.2.5 Induced factorizations 485

10.3 Variational Linear Regression 486

10.3.1 Variational distribution 486

10.3.2 Predictive distribution 488

10.3.3 Lower bound . 489

10.4 Exponential Family Distributions490

10.4.1 Variational message passing . 491

10.5 Local Variational Methods493

10.6 Variational Logistic Regression. 498

10.6.1 Variational posterior distribution. 498

10.6.2 Optimizing the variational parameters 500

10.6.3 Inference of hyperparameters 502

10.7 Expectation Propagation. 505

10.7.1 Example: The clutter problem 511

10.7.2 Expectation propagation on graphs513

Exercises517

11 Sampling Methods 523

11.1 Basic Sampling Algorithms . 526

11.1.1 Standard distributions 526

11.1.2 Rejection sampling528

11.1.3 Adaptive rejection sampling . 530

11.1.4 Importance sampling . 532

11.1.5 Sampling-importance-resampling534

11.1.6 Sampling and the EM algorithm. 536

11.2 Markov Chain Monte Carlo . 537

11.2.1 Markov chains 539

11.2.2 The Metropolis-Hastings algorithm . 541

11.3 Gibbs Sampling. 542

11.4 Slice Sampling 546

11.5 The Hybrid Monte Carlo Algorithm . 548

11.5.1 Dynamical systems548

11.5.2 Hybrid Monte Carlo . 552

11.6 Estimating the Partition Function554

Exercises556

12 Continuous Latent Variables 559

12.1 Principal Component Analysis 561

12.1.1 Maximum variance formulation. 561

12.1.2 Minimum-error formulation . 563

12.1.3 Applications of PCA . 565

12.1.4 PCA for high-dimensional data. 569

CONTENTS xix

12.2 Probabilistic PCA570

12.2.1 Maximum likelihood PCA574

12.2.2 EM algorithm for PCA 577

12.2.3 Bayesian PCA 580

12.2.4 Factor analysis 583

12.3 Kernel PCA586

12.4 Nonlinear Latent Variable Models591

12.4.1 Independent component analysis. 591

12.4.2 Autoassociative neural networks. 592

12.4.3 Modelling nonlinear manifolds 595

Exercises599

13 Sequential Data 605

13.1 Markov Models 607

13.2 Hidden Markov Models. 610

13.2.1 Maximum likelihood for the HMM . 615

13.2.2 The forward-backward algorithm618

13.2.3 The sum-product algorithm for the HMM625

13.2.4 Scaling factors 627

13.2.5 The Viterbi algorithm . 629

13.2.6 Extensions of the hidden Markov model. 631

13.3 Linear Dynamical Systems635

13.3.1 Inference in LDS. 638

13.3.2 Learning in LDS. 642

13.3.3 Extensions of LDS644

13.3.4 Particle filters . 645

Exercises646

14 Combining Models 653

14.1 Bayesian Model Averaging654

14.2 Committees655

14.3 Boosting. 657

14.3.1 Minimizing exponential error 659

14.3.2 Error functions for boosting . 661

14.4 Tree-based Models663

14.5 Conditional Mixture Models . 666

14.5.1 Mixtures of linear regression models . 667

14.5.2 Mixtures of logistic models . 670

14.5.3 Mixtures of experts672

Exercises674

Appendix A Data Sets 677

Appendix B Probability Distributions 685

Appendix C Properties of Matrices 695

xx CONTENTS

Appendix D Calculus of Variations 703

Appendix E Lagrange Multipliers 707

References 711

Index 729

计算机


python
AI人工智能
javascript
计算机网络/服务器
数据库技术
计算机F

考试教辅


考研考博
英语四六级

沪ICP备18046276号-5