博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
频率派统计(frequentist statistics)和贝叶斯统计(Bayesian Statistics) - 机器学习基础
阅读量:4122 次
发布时间:2019-05-25

本文共 1209 字,大约阅读时间需要 4 分钟。

内容总结自自花书《deep learning》Chapter 5,由英文版翻译而来。英文版官网可以免费查阅:

频率派统计(frequentist statistics)

在频率派估计的观点下,真实参数集 θ \pmb{\theta} θθθ是固定的但未知,我们使用作为数据集函数的随机变量 θ ^ \hat{\pmb{\theta}} θθθ^作为点估计。频率派统计基于 θ ^ \hat{\pmb{\theta}} θθθ^作所有的预测。

贝叶斯统计(Bayesian Statistics)

贝叶斯派的观点完全不同。贝叶斯使用概率来反映知识状态的确定程度。数据集是直接能够观测到因而不是随机的。贝叶斯派认为真实 θ \pmb{\theta} θθθ是未知的或不确定的,因此以一个随机变量来表示。(注意在上一小节中, θ ^ \hat{\pmb{\theta}} θθθ^是随机变量而不是 θ \pmb{\theta} θθθ。)

在观测数据之前,我们使用先验概率分布 p ( θ ) p(\pmb{\theta}) p(θθθ)来表示我们(已知的)关于 θ \pmb{\theta} θθθ的知识。一般来说,机器学习实践者会使用一个比较宽泛(高熵)的先验分布,反映了在观测任何数据之前对 θ \pmb{\theta} θθθ值的不确定性。

在使用贝叶斯估计的典型场景下,先验一般以一个高熵的相对而言均匀分布或高斯分布开始,对数据的观测会使得后验损失熵并且集中在一些非常接近参数的值附近。

贝叶斯统计(Bayesian Statistics)与最大似然估计(maximum likelihood estimation)

注:最大似然估计是点估计的一种常用的方法,也就是频率派估计的一种。

相较于最大似然估计,贝叶斯估计有两个不同的地方。第一,不同于最大似然估计方法使用 θ \pmb{\theta} θθθ的一个点估计来做预测,贝叶斯方法使用在 θ \pmb{\theta} θθθ上的全分布来做预测。

在这里插入图片描述
频率派方法通过评估方差来解决给定 θ \pmb{\theta} θθθ的点估计的不确定性。一个估计器(estimator)的方差是对在观测数据的不同采样下估计会如何变化的评定。贝叶斯通过简单地在其上积分来应对不确定性,这倾向于防止过拟合。积分只是概率规则的一次应用,这使得贝叶斯方法容易被验证。而频率派的机制是基于特定的决策对使用点估计表示的数据集中包含的知识做累加。

第二个不同之处在于贝叶斯估计的先验。先验会使得概率质量密度(probability mass density)朝着一个先验所青睐的参数空间区域偏移。在实际使用中,先验通常表达对一个更简单或者更平滑的模型的偏爱。批评者认为先验是人类主观判断影响预测的一个源头。

贝叶斯方法通常在有限的训练数据下泛化良好。但当训练样本很大时受制于庞大的计算开销。

转载地址:http://qsvpi.baihongyu.com/

你可能感兴趣的文章
C语言-预处理指令2-条件编译
查看>>
C语言-预处理指令3-文件包含
查看>>
C语言-变量类型
查看>>
C语言-static和extern关键字1-对函数的作用
查看>>
C 语言-static和extern关键字2-对变量的作用
查看>>
【JavaScript 教程】浏览器—History 对象
查看>>
还不会正则表达式?看这篇!
查看>>
100道+ JavaScript 面试题,助你查漏补缺
查看>>
JavaScript深入理解之闭包
查看>>
这才是学习Vite2的正确姿势!
查看>>
7 个适用于所有前端开发人员的很棒API,你需要了解一下
查看>>
25个构建Web项目的HTML建议,你需要了解一下!
查看>>
【web素材】02-10款大气的购物商城网站模板
查看>>
6种方式实现JavaScript数组扁平化(flat)方法的总结
查看>>
如何实现a===1 && a===2 && a===3返回true?
查看>>
49个在工作中常用且容易遗忘的CSS样式清单整理
查看>>
20种在学习编程的同时也可以在线赚钱的方法
查看>>
隐藏搜索框:CSS 动画正反向序列
查看>>
12 个JavaScript 特性技巧你可能从未使用过
查看>>
127个超级实用的JavaScript 代码片段,你千万要收藏好(上)
查看>>