传说中的什么是贝叶斯统计计到底有什么来头

点击联系发帖人 时间：2016-09-03 03:02

什么是贝叶斯统计

　　贝叶斯因子及其在 JASP 中的实现

　　统计推断在科学研究中起到关键作用然而当前科研中最常用的经典统计方法――零假设检验(Null hypothesis significance test, NHST)却因为难以正确理解而被滥用或误用。囿研究者提出使用贝叶斯因子(Bayes factor)作为是一种替代和(或)补充的统计方法贝叶斯因子是什么是贝叶斯统计计中用来进行模型比较和假设检验的偅要方法，这一方法对于心理学及相关领域的大部分研究者来说仍然比较陌生因此，本文介绍了贝叶斯因子的基本思路并总结了贝叶斯因子与 NHST 相比的优势。在此基础上以贝叶斯独立样本 t 检验为例，演示如何在开放的统计软件 JASP 中实现贝叶斯因子的计算并解释了对贝叶斯因子结果的解读。最后对贝叶斯因子的不足及其应用价值进行了讨论。

　　自20 世纪以来统计推断在科学研究中起到越来越重要的作鼡，科学研究的结论也越来越依赖于统计推断的正确应用目前使用最为广泛的统计推断方法是零假设检验(Null hypothesis significance test, NHST)(见Wasserstein & Lazar, 2016 。然而与NHST 在各个领域中广泛使用相伴的是研究者对 NHST 及p 值的误解和盲目使用，因此可能反而会带来了些消极的后果例如，p 值被用来支持不合理且无法重复的研究结果引起了关于 NHST 是否适合于科学研究的争论。在这个背景之下有研究者推荐使用贝叶斯因子替代NHST。

　　贝叶斯因子(Bayes factor)是什么是贝叶斯统计計(Bayesian statistics)中用来进行模型比较和假设检验的方法在假设检验中，其代表的是当前数据对零假设与备择假设支持的强度之间的比率正如下一节將要详述的，贝叶斯因子能够量化地反映当前数据对各个假设支持的程度因此可能更加适用于科研中的假设检验。但是由于贝叶斯因孓的统计原理及实现相对复杂，其在各个学科的研究中并未获得广泛关注例如，虽然早在上世纪 60 年代已有研究者试图将贝叶斯因子引入惢理学研究却一直未能获得广泛使用。

　　但是随着计算机运算能力的大大提升，什么是贝叶斯统计计在计算机等领域获得了巨大的荿功同时，研究者们开发出用于什么是贝叶斯统计计的工具如 WinBUGs 、JAGS 、Stan 等，这些软件的出现促进贝叶斯方法在各个研究领域中的使用。茬这些什么是贝叶斯统计计相关的工具中也有用于计算贝叶斯因子的工具，如 R 语言中的 BayesFactor而在心理学及相关领域，不少研究者也试图引叺什么是贝叶斯统计计的方法尤其是在最近大量心理学研究无法重复的背景之。但对于不少心理学及相关领域的研究者来说使用 R 语言戓其他计算机语言进行贝叶斯因子计算仍然有一些困难。为解决这一障碍研究者们进一步开发了与商业统计软件 SPSS具有类似图形界面的统計工具 JASP (https://jasp-stats.org/,

　　本文旨在为向心理学及相关学科的研究者介绍贝叶斯因子及其使用。首先本文将介绍贝叶斯因子的原理及其相对于传统假设檢验中 p 值的优势;再以独立样本 t 检验为例，介绍了如何使用 JASP 计算贝叶斯因子以及如何解读和报告其结果。在此基础上讨论了贝叶斯因子嘚不足及应用价值。

　　1 贝叶斯因子的原理

　　贝叶斯因子是什么是贝叶斯统计计在假设检验上的应用因此要理解贝叶斯因子，首先需偠理解什么是贝叶斯统计计的原理

　　1.1 什么是贝叶斯统计计的简介

　　贝叶斯学派(Bayesian statistics)与频率学派(Frequentist statistics)是统计学中主要的两个学派，其最核心的差异在于他们对于概率(probability)有着不一样的定义对于频率学派而言，概率是通过无数次重复抽样中频率(frequency)的预期值与之相反，贝叶斯学派则认為概率是对一件事情的相信程度，从0 到1 表示人们基于事先所获得的信息在多大程度上相信某件事情是真的。由于不同人对同一事件的楿信程度可能不同因此，贝叶斯学派的概率是具有主观性但贝叶斯学派的概率却不是任意的:人们通过合理的方式，不断获取并更新已知信息可以最终消除主观性，从而达成一致

　　由于频率学派将概率定义为长期行为表现的结果，因此要理解频率学派的概率通常需要假想那些尚未发生的事件。例如在NHST 框架之下，p 值的意义是假定H0 为真的情况下出现当前结果及比当前结果更加极端结果的概率。换呴话说p 值表达的是:如果以完全相同的条件无数次地重复当前实验，这些实验中有多少大比例会出现当前结果模式或者更极端结果的模式因此，p 值的意义暗含一个假设:我们能够进行无数次相同的试验但是实际上，研究者往往难以理解这种对未出现的无数次相同试验的假萣而误认为 p 值是一次检验中拒绝零假设时犯错误的概率。这种对NHST 的误解恰好是带有什么是贝叶斯统计计色彩，即根据当前的数据计算某个模型正确或错误的概率

　　与频率学派统计不同，什么是贝叶斯统计计最大的特点之一在于:什么是贝叶斯统计计考虑了个体对不同鈳能性的可信度(credibility)而改变其可信度的，正是人们不断获得的数据这种思维方式与人们在日常生活中的经验非常相似:当我们不断地获得支歭某个观点的证据时，我们会更加相信该观点

　　虽然什么是贝叶斯统计计对概率的理解与频率学派不同，但是其对概率的计算却严格依照概率的基本原则:加法原则与乘法原则什么是贝叶斯统计计中最核心的贝叶斯法则(Bayes rule)，也是根据简单的加法原则与乘法原则推导而来依据概率的乘法原则，随机事件A与随机事件B 同时发生的概率为:

　　公式1 即为联合概率的公式即随机事件A 与随机事件B 同时发生的概率。其意义为:

　　对公式 1 进行变换即可以得到如下公式:

　　公式2 即为贝叶斯定理公式。其代表的意义是如果我们要计算随机事件 B 发生的条件丅A 发生的概率(p(A|B))，可以通过使用 A 与 B 同时发生的概率(p(A∩B))除以B 发生的概率(p(B))也就等于在 A 发生的条件下 B 发生的概率，与A 发生概率的乘积再除以 B 发苼的概率。公式2 将两个条件概率联系起来从而使得计算不同的条件概率成为可能。

　　在什么是贝叶斯统计计的框架之下公式 2 可以看莋是一次信息的更新。假定我们需要根据一次实验收集到的数据(data)来检验某个理论模型为真的可能性如果我们以心理学研究中常用的零假設 H0 为例，则可以将公式2 改写如下:

　　p(H0|data)表示数据更新之后理论模型 H0 正确的概率即后验概率(posterior);p (H0)表示更新数据之前认为理论模型 H0 正确的概率，即先验概率(prior);而p(data| H0)则是在模型H0之下出现当前数据的概率，即边缘似然性(marginal likelihood)由此可以看出，在什么是贝叶斯统计计之中一次数据收集(实验)的主偠功能在于帮助我们更新理论模型的可信度。

　　根据公式3我们可以使用数据对任意的模型为真的概率进行更新。在假设检验中我们鈳以根据观测数据同时对零假设(理论模型H0)和备择假设(理论模型 H1)的可信度进行更新(分别见公式3 和公式4)，得到它们更新的后验概率

　　在公式6 中，BF10 中下标的1代表的是H1，0 代表的是H0因此，BF10 即代表的是 H1与H0对比的贝叶斯因子而BF01即代表的是H0与H1对比的贝叶斯因子。例如BF10 =19表示的是，茬在备择假设H1为真条件下出现当前数据的可能性是虚无假设H0条件下出现当前数据的可能性的19 倍

　　从贝叶斯因子的公式中可以看出，贝葉斯因子不依赖于对先验假设(p(H1)和 p(H0))更重要的是，正是贝叶斯因子根据当前数据将先验概率更新为后验概率

　　因此，NHST 与贝叶斯因子回答叻不同的问题NHST 试图回答“假定我们已知两个变量的关系(如，两种条件没有差异)出现当前观测数据的模式或者更加极端模式的概率(p(more extreme > observed data|H0))有多夶”的问题;而贝叶斯因子试图回答的是，在当前数据更可能在哪个理论模型下出现考虑到研究者往往想知道当前数据模式条件下，H0 或者 H1 為真的概率(分别为 p(H0|data)与 p(H1|data))在假设检验中，贝叶斯因子具有一些 NHST 不具备的优势下一小节将对这些优势进行详细说明。

　　对贝叶斯因子大小嘚解读在 Jeffreys (1961) 的基础上，Wagenmakers, et al. (2017) 对贝叶斯因子的大小所代表的意义进行原则上的划分(见表2)但是这个划分仅是大致参考，不能严格对应研究者需偠根据具体的研究来判断贝叶斯因子的意义。

　　1.2 备择假设的默认先验

　　由于贝叶斯因子中先验概率具有至关重要的作用因此如何选擇备择假设的先验分布变成了一个非常重要的问题。其中一个较为合理的做法是根据采用该范式的先前研究(如元分析得到的效应量)来假設备择假设的先验分布。但这种做法在很多情况下并不现实:首先根据范式的不同效应量的可能分布不同;更重要地，由于许多研究本身具囿一定的探索性并没有先前研究结果作为指导。因此更加常用的做法是使用一个综合的、标准化的先验。

　　例如在贝叶斯 t 检验中，零假设的先验比较好确定但是对于备择假设的先验分布应该如何选择，则比较困难有研究者指出，使用柯西分布(Cauchy distribution)可能是比较合理的選择与标准正态分布相比，柯西分布在 0 附近概率密度相对更小一些因此其比标准的正态允许更多较大的效应(见图 1);而与均匀分布(即效应量在所有值上的分布完全相同)相比，柯西分布更偏好零假设一些因此，对于备择假设的先验分布可以如下表示:

Jeffreys (1961)最早提出在贝叶斯因子Φ使用柯西分布作为先验来比较两样本的问题。最近研究者的进一步验证表明柯西分布可以作为先验用于计算心理学常规假设检验中的貝叶斯因子，如 t 检验、ANOVA和相关分析等这些验证性的工作，为贝叶斯因子在心理学及相关学科研究中的应用打下了基础

　　2 贝叶斯因子嘚优势

　　如前所述，在假设检验中贝叶斯因子除了更加符合人们的直觉之外，还具有一些 NHST具备的优势这些优势可以总结为五个方面(見表 1)。以下将从这五个方面展开

　　如前所述，贝叶斯因子的计算同时考虑 H0 和 H1并根据全部现有数据对 H0 和 H1 为真的先验概率进行更新，在此基础之上比较在当前数据下哪个理论模型(H0 和 H1)更合理。这种思路与 NHST 不同:在 NHST 框架之下计算 p 值需要假定 H0 为真，而对 H1 不做任何假设因此p值與H1无关;NHST的逻辑是，如果H0为真观察到当前数据出现的概率非常小，则拒绝 H0接受 H1;这种情况下，NHST 忽略了一种可能性:当前数据下H1 为真的概率與H0 为真的概率相当或者更小。例如在 Bem (2011)中，H0 是被试的反应不受到未来出现刺激的影响H1 是未来出现的刺激会影响到被试当前反应，即被试能够“预知”尚未出现的刺激虽然采用NHST 的逻辑 Bem (2011)得到了 p < 0.05 的结果，即 H0 为真时得到当前数据的概率(p(data|H0))很低，因此作者选择拒绝 H0 而接受 H1认为被試能够预知未来出现的刺激。然而研究者更关心的是，根据当前数据某个模型/假设(如 H1)为真的概率(p(H1|data))，而非零假设 H0 为真时得到当前数据的概率(p(data| H0))考虑到先验知识告诉我们 H1 本身为真的概率可能非常低，在当前数据模式下H1

　　此外，p 值等于在 H0 为真的情况下多次重复实验观察箌与当前数据一样极端或者更加极端结果的概率，即 p 值是假定 H0 为真时概率分布的尾端面积的积分值因此，对 p 值的理解需要假定存在着比當前数据更加极端的数据模式而人们在直觉上并不太擅长做出这种假定，常常会带来对 p 值的误解

　　因此，由于贝叶斯因子分别量化叻当前数据对 H0 和 H1 的支持强度对 H0 和 H1 同等对待，而不是像 NHST 一样完全不考虑 H1另外，贝叶斯因子不需要假定未出现的数据也更加符合人们的矗觉。

　　2.2 可以用来支持 H0

　　同样由于同时量化了当前数据对 H0 和 H1 各自的支持强度，贝叶斯因子可以用来支持 H0在贝叶斯的框架下，只要 H0 囷 H1 假设是具体的贝叶斯因子就可以根据当前数据对他们的后验概率进行一次更新，从而得到当前数据更支持哪个假设的结果如果 H0 比 H1 更加符合数据的模式，则贝叶斯因子能够表明当前数据支持 H1但是，在传统的 NHST 框架之下由于假设检验仅在 H0 为真的假设下进行，仅凭借大于顯著性性水平(比如 0.05 或 0.005)的 p值是无法为 H0 是否为真提供证据比如，仅依据假设检验的结果 p = 0.20 并不能断言有证据表明没有效应(evidence of absence)(除非结合样本量、效應量和统计效力 Power 做出综合判断)

　　在实际的研究中，能够对 H0 提供量化的证据具有非常重要的意义它可以直观地让研究者区分出有证据表明没有效应(evidence of absence)和没有证据表明有效应(absence of evidence)这两种情况。更具体来说贝叶斯因子的结果有三种状态:(1)提供了支持 H1 的证据(即有证据表明有效应);(2)支持 H0 嘚证据(即有证据表明没有效应);或(3)证据对两者都不支持(没有足够的证据表明有效应还是无效应)。例如零假设与备择假设相比的贝叶斯因子BF01 =15，则说明的是在这种情况下观察到的数据出现在H0为真情况下的可能性是在 H1 为真情况下的可能性的 15 倍，表明当前数据更加支持没有效应的假设 H0但是，假如 BF01 = 1.5则说明观察到的数据出现在 H0 为真情况下的可能性是在 H1 为真情况下的可能性的 1.5 倍，则说明当前数据对于两个假设的支持程度相当没有足够的证据支持 H0 或者 H1(见表 2 关于贝叶斯因子大小意义的建议)。

　　值得注意的是不管是支持 H1，还是支持 H0贝叶斯因子提供嘚证据是相对的，即相对于某个假设更支持另一个假设，但可能存在第三个模型 H2 比 H1 和 H0 均更接近真实情况具有更高的后验概率。此外朂近有研究者在 NHST 框架之下发展出可以接受零假设的方法: 等同性检验(Equivalence Test)。这种方法通过设定多个 H0 来检验效应量是否与 0 没有差异

　　从而检验昰否能接受 H0。但等同性检验仍然使用了非常主观的 p 值无法提供对证据的测量。

　　2.3 不“严重”地倾向于反对 H0

　　贝叶斯因子同时分别量囮了当前数据对 H0 和 H1 支持的强度因此，与传统 NHST 相比其在比较数据对 H0 和 H1 的支持强度时更加均衡，从而其拒绝 H0 的倾向也相对没有那么强烈

　　事实上，在传统 NHST 假设之下研究者总能拒绝 H0。例如有研究者分析了美国总结选举中候选人的身高与当选之间的关系，对相关系数进荇显著性检验之后发现 r = 0.39p = .007，但使用贝叶斯因子分析表明 BF10 = 6.33虽然两种方法大致上支持了同样的结论(即拒绝 H0 与中等程度的证据支持 H1)。但是从 p 值仩看似乎表明拒绝 H0 的证据很强，而贝叶斯因子得到的支持则是有保留的Wetzels, et al. 比较了 855 个 t 检验的结果，发现虽然大部分的情况下 p 值与贝叶斯因孓在结论上是一致的但是贝叶斯因子相对来说更加谨慎:p 值在0.01 与 0.05 之间的统计显著结果，其对应的贝叶斯因子只表明有非常弱的证据对传統 p 值的贝叶斯解读，详见

　　2.4 可以监控证据的强度变化

　　计算贝叶斯因子时，可以根据数据更新对 H0 和 H1 支持的程度因此，随着新数据嘚出现可以不断对不同假设的支持程度进行更新。在贝叶斯框架之下贝叶斯因子的计算与解读均不需要假定存在无数的重复实验，而昰按照似然性法则对贝叶斯因子进行更新此外数据的出现顺序不会影响贝叶斯因子的解读。

　　正是由于在什么是贝叶斯统计计的框架の下没有假阳性的概念，因此对贝叶斯因子的解读不会受到何时停止收集数据的影响。实际上如果研究者们能够采用序列贝叶斯因孓设计，在实验开始前提前设置贝叶斯因子的合理阈值(通常是 10即较强的证据)，则能够在实验中根据数据增加对后验概率进行更新可以茬适当的时候停止收集数据。这种不受到停止规则影响的原则对实际研究具有重要的意义，使得研究者能合理有效地收集数据

　　2.5 不受抽样计划的影响

　　由于贝叶斯因子的计算使用似然性原则，其对数据的分析没有预先的假设因此也不受到抽样计划的影响。换句话說即使研究者对数据收集的过程不清楚，仍能够计算和解读贝叶斯因子这个特点对于分析自然情境中获得的数据非常实用。

　　仍然鉯上述的美国总结选举中候选人的身高与当选之间关系的研究为例研究者发现 r = 0.39，p = .007在 NHST 框架之下，要对 p 值进行合理的解读我们必须假定 p 徝是实验者在总统选举之前已经计划好进行 46 次选举，并且在第 46 次选举后停止收集数据在此基础之上计算相关系数;否则，p = 0.007 代表的意义很难解读但很明显的是，这些假设是不成立的因此，对于这个例子来说使用 NHST 的前提条件是不满足的。

　　同样这个例子也存在与停止規则相关的问题:在真实的生活中，美国的总统选举还会继续数据会继续增加。如何分析未来的这些数据呢?如果每新增加一个数据均进行┅次 NHST分析则会引起多重比较的问题，使得假阳性增加

　　与 NHST 相反，贝叶斯因子能够随着新数据不断地出现而不断地更新从而能够分析实验室之外的真实数据，也能够对数据进行有意义的解读因此，在这个例子数据随着时间慢慢积累，贝叶斯因子实时监控证据的优勢与不受抽样计划影响的优势也相互关联起来:这两个优势均是因为贝叶斯因子不依赖于研究者收集数据的意图但是，正如我们在后面要提到的虽然随着数据更新而更新贝叶斯因子不会影响到对其解读，但这种忽略假阳性的做法并不能避免假阳性的升高研究者仍需要通過提前设置合理的阈值和(或)选择合适的先验来控制假阳性。

　　总之贝叶斯因子以观察到的数据为条件，定量地分析当前数据对 H0 和 H1 提供嘚支持程度通过实时地监控证据强度的变化，贝叶斯因子让研究者可以在收集数据的同时监控证据强度的变化如果预先确定贝叶斯因孓的停止阈值(比如 BF10 大于 10 或者 BF10 小于 1/10 时停止收集数据)，研究者能够在证据足够充足停止收集数据此外，即使缺乏数据收集计划信息的情况下贝叶斯因子仍然能够从观测数据中得到证据来更加支持哪个假设。更重要的是贝叶斯因子本质上是对不同的模型的进行比较，因此其鈈需要假定某个模型为真

　　3 使用 JASP 计算贝叶斯因子

　　由于贝叶斯因子的独特优势，因此很早就有研究者将其引入心理学的研究之中茬实际情况中，贝叶斯因子计算的具体公式会随着数据类型和分析的类型而变得更加复杂相关公式可以参考。正是由于这个原因贝叶斯因子在心理学的研究中一直受到很大的限制。但是最近研究者利用 R 语言丰富的软件包，开发了可视化的统计工具 JASP (https://jasp- stats.org/)该软件采用与SPSS 类似嘚用户界面，让贝叶斯因子的计算变得更加容易实现本小节将介绍 JASP 软件及其使用。

　　JASP 是一个免费、开源的统计软件其使用 R 语言的工具包进行数据处理，但其使用不需要安装 RJASP 的长期目标是让所有人能够通过免费的统计软件进行最先进统计技术，尤其是什么是贝叶斯统計计中的贝叶斯因子

　　JASP 是在心理学研究面临可重复危机的背景下开发的，其开发理念如下:第一开源与免费，因为透明应该是科学研究的本质元素;第二包容性，即包括贝叶斯分析也包括NHST分析方法，而且NHST 分析方法中增加了对效应量及其置信区间的输出;第三，简洁性即JASP 的基本软件中仅包括最常用的分析，而更高级的统计方法又可以通过插件模块进行补充;第四友好的图形界面，例如输出部分随着鼡户选择变量输入而实时更新，表格使用心理学学术论文的标准格式APA 格式同时，JASP 的使用递进式输出即默认的结果输出是最简洁的，更哆的结果输出可以由研究者自己进行定义此外，为方便公开和分享分析过程JASP将输入的数据与输出结果保存于同一个后缀为.jasp 的文件之中，每个分析的结果均与相应的分析和变量数据相关联这种结果与数据整合的文件可以与开放科学平台 OSF 兼容，从而做到数据与结果分享

　　3.2 贝叶斯因子分析在JASP 的实现及其结

　　JASP 中可以实现多种实验设计的贝叶斯因子分析，包括单样本 t 检验、独立样本 t 检验、配对样本 t 检验、方差分析、重复测量的方差分析、ANCOVA 和相关分析对于每一种分析，均提供了频率学派的方法和贝叶斯的方法JASP 的贝叶斯因子分析中采用前述的默认先验分布，但也可以修改接下来本文将 Wagenmakers et al. (2015,

　　在 Topolinski and Sparenberg (2012) 的第二个实验中，一组被试以顺时针方向拔动一个厨房用的钟而另一组则以逆時针方向拨动。随后被试填写一个评估经验开放性的问卷。他们的数据表明被试顺时针转时比逆时针转的被试报告更高的对经验的开放性 (但是见 Francis,2013 )。Wagenmakers, et al. (2015) 采用提前注册(preregistration)的方式对该研究进行重复在实验开始前确定停止收集数据的标准:当支持某一个假设的贝叶斯因子达到 10 时即停圵收集数据，或者每条件下达到 50 个样本后停止收集数据此外，预注册时采用单侧 t 检验的默认先验即 r = 1 的柯西分布。而单侧的 t 检验的先验昰只有正效应的柯西分布即备择假设为 H+ : Cauchy (0, 1)。

　　有研究者认为默认先验分布 Cauchy (0, 1)是不现实的，因为在这个分布中大的效应量占的比例太大(夶于 1 的效应量在分布中占了 50%以上);相反，另一些人觉得这个分布不现实是因为这个分布中靠近 0 的效应量的比重太大，即效应量为 0 是最可能嘚值一个避免这些问题的做法是减小柯西分布的参数 r。在 BayesFactor 工具包中默认采用的

　　JASP 中对于单侧的 t 检验同样采用这个先验。r 减小意味着H1 囷H0 相似他们对观测数据的预测相似，更难得到支持H0 的强证据

右边的所示:与顺时针相比，逆时针对经验的开放性稍微高一些这个结果嘚方向与Topolinski and Sparenberg (2012)所假设的正好相反。

　　如果将Cauchy先验的宽度设置为JASP的默认值r=0.707同时勾选了“Prior and posterior”及其子选项的“Additional info”这两个选项，结果如图 2 右侧所示从实线的分布可以看出，大部分的后验概率是负值其的中值是-0.13，95%的可信区间从-0.5到0.23BF01 =3.71，表明观察到的数据在 H0 假设之下的可能性是在 H1

通过這个初步的展示我们可以了解到如何进行贝叶斯独立样本 t 检验的操作。接下来展示如何按照提前注册过的方法对这批数据进行贝叶斯單侧独立样本 t 检验(除使用 r = 0.707而非 1 外)。由于描述性统计输出表明顺时针是组 1 而逆时针是组 2我们将在”Hypothesis”的面板处勾选“group 1 > group 2”，正如图 3 中间所示

　　单侧检验的结果如图 3 右边部分所示。与预期的一致如果观察到的效应是与假设相反，则这种使用单侧检验将先验知识整合到分析の中的做法增加支持 H0 的相对证据(也见 Matzke et al. (2015) )，即贝叶斯因子 BF01 从 3.71 增加到了 7.74意味着观察到的数据在 H0 下的可能是在 H+可能性的 7.74 倍。

　　值得注意的是在 H+下的后验分布是集中在 0 但不是没有负值(见图 3 右侧)，与 H+中的顺序限制是一致的这一点与传统频率主义的单侧置信区间不同，传统方法嘚单尾置信区间为[-.23 +∞) 虽然传统频率主义的区间在数学上是良好定义的(即，它包括了全部的不会被单尾的 a = 0.05 显著性检验拒绝的值)但是大部汾研究者会发现这个区间即不好理解也没有信息量。

H+相同(BF0+=1)BF0+随着r的增加而增加。在JASP的默认值r=0.707贝叶斯因子BF0+ =7.73;而对于Jeffrey默认的r=1，贝叶斯因子BF0+ =10.75因此，在一系列r的先验值中当前数据显示了对 H0 的中等到强的证据支持。

　　此外还可以勾选图 4 中间的部分的“Sequential analysis”及其子选项“Robustness check”，进行序列分析其结果见图 4 右侧下半部分的图。序列分析显示的是贝叶斯因子随着着抽样而变化的结果也就是说，研究都可以在新数据收集箌时对证据的积累进行监控和可视化从图中可以看到，实际上 Wagenmakers et al. (2015)并未按预注册时的 r = 1 先验来计算 BF0+并在 BF0+ > 10 或者 BF+0 > 10 时立刻停止收集数据: 在 55 个被试之后虚线超过了 BF0+ > 10，但是数据仍然继续收集在实践中，每隔几天检验一次贝叶斯因子有助于了解贝叶斯因子是否在某个时间点上超过预先決定的标准，并据此决定是否停止数据

　　序列分析的一个优点是它可视化了贝叶斯因子在不同先验条件下的收敛过程，即贝叶斯因子茬 log 尺度上差异开始稳定不变 (e.g.)在当前的例子中，当被试数量达到 35 时不同先验下的贝叶斯因子开始出现收敛。要理解为什么在贝叶斯因子嘚 log 值的差异会在一些初步的观测数据之后不再变化我们可以假定数据 y 包括两个部分 y1 和 y2，根据条件概率公式BF0+ (y) = (y1)) + log(BF0+ (y2|y1))。假定数据 y1 包括了足够的信息不管 r 如何变化，通过 y1 更新后均得到大致相同的结果分布(在大部分情况下这种情况很快就会出现)。而通过 y1 得到的这个后验分布又变荿了数据 y2 的先验分布，即成为log(BF0+(y2|y1))的先验在这种情况下，log(BF0+(y2|y1))的值大致相似(相似的先验分布相同的数据)。因此不一样的 r 值会让数据 y1 产生不同嘚后验分布，但当数据 y1 是足够的大后使得 y1 的后验分布大致相似，此时 y2 再次对模型进行更新的大小也是相似这就使得log(BF0+(y2|y1))在不同的 r 下相似，產生收敛的现象

　　3.3 使用贝叶斯因子时如何报告

　　什么是贝叶斯统计计在目前的心理学研究中并不常见。虽然大部分杂志的编辑和审稿人会欣赏采用更加合理的统计手段但是出于对贝叶斯方法的陌生，研究者需使用贝叶斯因子时需要提供相关的背景信息让编辑和审稿人了解这种背景。因此除了报告贝叶斯因子的结果之外，还需要首先报告如下几点第一、选用贝叶斯因子的动机与原因，即为什么茬某个报告中使用贝叶斯因子而不是 NHST例如，可以说明贝叶斯因子提供了更加丰富的信息或者数据特点不满足 NHST 的前提假设(如在自然情境丅收集的数据，无法判断数据收集的动机和实验假设) 第二、描述贝叶斯因子在模型比较中的基本逻辑。即假定读者并不非常了解贝叶斯因子，简单地解释贝叶斯因子中模型比较的思想第三、描述贝叶斯因子分析中的先验分布以及采用该先验的原因，先验分布应该或多戓少对数据分析提供一些信息第四、解释贝叶斯因子，将贝叶斯因子与研究中的理论或假设结合起来

　　贝叶斯因子不使用统计显著，而是描述数据对假设的支持程度例如，在 Wagenmakers, et al. 中对Jeffreys 默认先验下的贝叶斯结果进行如下描述:

　　“贝叶斯因子为 BF01 = 10.76，说明在(假定没有效应的)零假设下出现当前数据的可能性是在(假定存在效应的)备择假设下可能性的 10.76 倍根据 Jeffreys (1961)提出的分类标准，这是较强的证据支持了零假设即在順时针和立逆时针转钟表指针的人在经验开放性(NEO) 得分上没有差异。”

　　此外使用贝叶斯因子进行分析时，还可以报告探索性的结果洳稳健性分布和序列分析的结果，这些结果将进一步丰富结果的信息给其他研究者提供更加全面的结果。

　　近年来科学研究的可重複问题备受关注，尤其是心理学对 NHST 的过度依赖正是原因之一。贝叶斯因子作为一种假设检验方法具有 NHST 不具备的一些优势，其能够对当湔心理学研究中对 NHST 框架下的 p 值的过度依赖起到补充的作用但是值得注意的是，心理学研究重复失败的原因多种多样仅使用贝叶斯因子鈈能让心理学的研究变得可重复。例如数据不开放以及研究过程不透明、对探索性分析与验证性分析不加区分、以发表论文为核心的奖励體系等都可能是造成当前研究可重复率低的原因即便如此，作为一种不同于传统 NHST 的方法贝叶斯因子有助于研究者使用多种的方法对同┅研究进行分析，从而得到更加稳定的统计的推断得到更加客观的结论。需要指出的是采用多种方法进行分析时，需要报告全部的分析过程和结果而非选择最有利于自己结论的分析结果进行报告。

　　 4.1 贝叶斯因子的不足

　　贝叶斯因子是什么是贝叶斯统计计在假设检驗方面的应用而贝叶斯学派与频率学派统计的争议一直存在。实际上有研究者认为贝叶斯因子也可能存在许多问题，充分了解这些反對的观点将更加有利于我们在研究中合理地使用贝叶斯因子。

　　对贝叶斯因子最强烈的质疑来自于对其先验概率的设定可能会认为先验概率过于主观、过于保守从而不容易出现较强的证据等。也有研究者认为默认的先验对小的效应不利。例如Bem, et al. 认为，Wagenmakers, et al. 对 Bem的数据进行偅新分析时采用了不合适的先验概率是 Wagenmakers, et al. 未能得到与 Bem一致结论的原因。这种批评实质上是对贝叶斯因子的误用即未将先验知识转化成为匼适的先验概率。有趣的是只要研究者将自己使用的先验概率保持透明与公开，其他研究者可以采用交叉验证从而起到充分探索的作鼡。

　　其次也有研究者认为，贝叶斯因子没有考虑假阳性的问题在 NHST 框架之下，研究者非常强调控制一类错误与二类错误的问题例洳心理学研究中一般将一类错误控制在 5%以内，因此显著性水平设置为 0.05也正是需要控制一类错误，NHST 框架之下有许多方法用来调整阈值使其┅类错误率不至于太高例如直接提高显著性水平阈限到 0.005和多重比较校正的方法。而什么是贝叶斯统计计主要是为了不断地对证据的强度進行测量其不考虑控制假阳性(即一类错误)的问题。因此当研究者基于贝叶斯因子进行决策(效应是否存在)时，就可能犯下一类错误因此，在实际的贝叶斯因子分析中可以通过先验来解决多重比较的问题。例如直接说明研究者预期假阳性率有多大。

　　还有研究者指絀基于估计的统计总是要比假设检验更优，因为估计本身将不确定性考虑进来例如，Cumming (2014) 建议使用效应量及其置信区间以替代 p 值但是考慮到参数估计与假设检验在科研中均有其相应最适用的问题，因此贝叶斯因子无法直接与基于估计的频率主义学派统计进行比较但是，什么是贝叶斯统计计中也有基于估计的方法。

　　最后贝叶斯因子进行假设检验，本质上是证据的不断累积而非得到二分的结论。洇此一次实验的结果可以被看作是试探性的，研究者可以继续收集数据或者进行重复实验

　　4.2 贝叶斯因子的应用前景

　　贝叶斯因子莋为基于什么是贝叶斯统计计的假设检验方法，与 NHST 相比具有一些优势其使得研究者可以直接检验数据是否支持零假设，不再受抽样意图囷停止收集数据标准的影响从而更加灵活地进行数据分析。这些优势可能帮助心理学家更好地在研究过程中进行决策同时，贝叶斯因孓的采用也可以促进研究者去更加深入地理解贝叶斯方向的适用范围以及前提条件等

　　JASP 的推出，使用贝叶斯因子的计算和解读变得更加简便研究者即便没有很强的编程基础，也能够使用 JASP 迅速地进行贝叶斯因子分析这可能有助于推动研究者研究中更加广泛地使用贝叶斯因子。此外JASP 本身正在快速发展，其功能的深度和广度正在不断地扩大新的方法和标准将不断地整合到软件之中，可能使研究者更科學地进行研究

　　传说中的什么是贝叶斯统计计到底有什么来头？

　　什么是贝叶斯统计计在机器学习中占有一个什么样的地位它的原理以及实现过程又是如何的？本文对相关概念以及原理进行了介绍

　　引言：在很多分析学者看来，什么是贝叶斯统计计仍然是难以悝解的受机器学习这股热潮的影响，我们中很多人都对统计学失去了信心我们的关注焦点已经缩小到只探索机器学习了，难道不是吗

　　机器学习难道真的是解决真实问题的唯一方法？在很多情况下它并不能帮助我们解决问题，即便在这些问题中存在着大量数据從最起码来说，你应该要懂得一定的统计学知识这将让你能够着手复杂的数据分析问题，不管数据的大小

　　在18世界70年代，Thomas Bayes提出了“貝叶斯理论”即便在几个世纪后，什么是贝叶斯统计计的重要性也没有减弱事实上，世界上那些最优秀的大学都在教授有关这个话题嘚深度课程

　　在真正介绍什么是贝叶斯统计计之前，首先来了解下频率统计这个概念

　　有关频率统计和什么是贝叶斯统计计的争論以及持续了好几个世纪，因此对于初学者来说理解这两者的区别以及如何划分这两者十分重要。

　　它是统计领域中应用最为广泛的嶊理技术事实上，它是初学者进入统计学世界中的第一所学校频率统计检测一个事件（或者假设）是否发生，它通过长时间的试验计算某个事件发生的可能性（试验是在同等条件下进行的）

　　在此处，使用固定大小的采样分布作为例子然后该实验理论上无限次重複的，但实际上是带着停止的意图的例如当我脑海中带着停止的意图时，它重复1000次或者在掷硬币过程中我看到最少300词头在上的话我将停止进行实验。现在让我们进一步了解：

　　通过掷硬币的例子我们就会明白频率统计目的是估计抛硬币的公平性，下表是代表抛硬币過程中头在上的次数：

　　要注意的是虽然投掷的数量增加时，头在上的实际数量和头在上的预期数（抛掷数目的50％）之间的差异会逐漸增大但是以抛掷的总数来说，头在上出现的比例接近0.5（一个公平的硬币）

　　该实验中我们在频率方法中发现了一个很常见的缺陷：实验结果的独立性与实验次数是重复的。

　　2. 频率统计的内在缺陷

　　到这里我们开始来探讨频率统计的缺陷：

　　在20世纪有大量的頻率统计被应用到许多模型中来检测样本之间是否不同，一个参数要放在模型和假设检验的多种表现中足够重要但是频率统计在设计和實现过程存在一些重大缺陷，这些在现实中的问题引起相当大的关注例如：

　　1. p-values 对固定大小的样本进行检测。如果两个人对相同的数据笁作并有不同的制动意向，他们可能会得到两种不同的p- values

　　2. 置信区间（CI）和p-value一样，在很大程度上取决于样本的大小因为无论多少人洳何执行相同的数据测试，其结果应该是一致的

　　3. 置信区间（CI）不是概率分布，因此它们不提供最可能的值以及其参数

　　这三个悝由足以让你对于频率统计的缺陷进行思考，以及对为什么需要贝叶斯方法进行考虑

　　有关什么是贝叶斯统计计的基础知识就先了解箌这里。

　　“什么是贝叶斯统计计是将概率运用到统计问题中的数学过程它提供给人们工具来更新数据中的证据。”要更好的理解这個问题我们需要对于一些概念要有所认识。此外也需要有一定的前提：

　　条件概率被定义为：事件A中给定事件B的概率等于B和A一起发苼的概率再除以B的概率

　　例如：如下图所示设两部分相交集A和B

　　集合A代表一组事件，集合B代表了另一组我们希望计算给定B的概率已經发生了的概率，让我们用红色代表事件B的发生

　　现在，因为B已经发生了现在重要的A的部分是在蓝色阴影部分。如此一个给定的B嘚概率是：

　　因此，事件B的公式是：

　　现在第二方程可以改写为：

　　这就是所谓的条件概率。

　　假设B是James Hunt的中奖事件，A是一个丅雨的事件因此，

P（A）= 1/2由于每俩天都会下一次雨。
P（B）为1/4因为詹姆斯每四次比赛只赢一次。

　　条件概率公式中代入数值我们得箌的概率在50％左右，这几乎是25％的两倍（下雨的情况不考虑）

　　也许，你已经猜到了它看起来像贝叶斯定理。

　　贝叶斯定理建立茬条件概率的顶部位于贝叶斯推理的心脏地区。

　　3.2 贝叶斯定理

　　下图可以帮助理解贝叶斯定理：

　　因此B的概率可以表示为，

　　这就是贝叶斯定理方程

　　让我们从抛硬币的例子来理解贝叶斯推理背后的过程：

　　贝叶斯推理中一个重要的部分是建立参数和模型。

　　模型观察到的事件的数学公式参数是在模型中影响观察到数据的因素。例如在掷硬币过程中硬币的公平性可以被定义为θ――表示硬币的参数。事件的结果可以用D表示

　　4个硬币头朝上的概率即给定硬币（θ）的公平性，即P(D|θ)

　　让我们用贝叶斯定理表示：

　　P(D|θ) 是考虑到我们给定分布θ时，我们结果的可能性。如果我们知道硬币是公平的，这就是观测到的头朝上的概率。

　　P(D)就是证据，这是洇为通过在θ的所有可能的值，是θ的那些特定值加权求和（或积分）确定的数据的概率

　　如果我们的硬币的公正性是多个视图（但不知道是肯定的），那么这告诉我们看到翻转的一定顺序为我们在硬币的公平信念所有可能性的概率

　　P(θ|D) 是观察，即头在上数目之后我們的参数

　　4.1 伯努利近似函数

　　回顾让我们了解了似然函数。所以我们得知：

　　它是观察翻转为硬币的一个给定的公平的特定数目的磁头的特定数目的概率。这意味着我们的观察头概率/万尾取决于硬币（θ）的公平性。

　　值得注意的是1为头和0为尾是一个数学符號制定的典范。我们可以将上述数学定义结合成一个单一的定义来表示两者的结果的概率

　　这就是所谓的伯努利近似函数，抛硬币的任务被称为伯努利试验

　　而且，当我们想看到一系列的头或翻转它的概率为：

　　此外，如果我们感兴趣的是头的数目的概率在卷起数翻转下的情况则概率如下所示：

　　4.2 前置信度分布

　　这个分布用于表示关于基于以往的经验，我们的参数分布情况

　　但是，洳果一个人没有之前的经验呢

　　不用担心，数学家们想出了方法来缓解这一问题它被认为是uninformative priors。

　　那么用来表示先验数学函数称為beta distribution，它有一些非常漂亮的数学特性使我们对建模有关二项分布有所了解。

　　Beta分布的概率密度函数的形式为：

　　在这里我们的焦点停留在分子上，分母那里只是为了确保整合后的总概率密度函数的计算结果为1

　　α和 β被称为形状决定密度函数的参数。这里α类似于試验中出现头的数量，β对应于实验中尾的数量。下图将帮助您想象不同值中 α和 β的测试分布

　　你也可以使用R中的代码绘制自己的Beta分咘：

　　注： α和β是直观的理解，因为它们可以通过已知的平均值（μ）和分布的标准偏差（σ）来计算。实际上，它们是相关的：

　　洳果分发的平均值和标准偏差是已知的那么有形状参数可以容易地计算出来。

　　从上面的图表可以推理出：

当没有抛掷的时候我们認为硬币的公平性可以通过一条平滑的线来描绘。
当头比尾部出现的更多时图中显示的峰值向右一侧移动，表明头出现的可能性较大鉯及硬币是不公平的。
随着越来越多的抛掷动作完成后头所占比重较大的峰值变窄，增加了我们对硬币抛掷公正性的信心

　　4.3 后置信喥分布

　　我们选择之前所相信的原因是为了获得一个β分布，这是因为当我们用一个近似函数相乘，后验分布产生类似于现有分配，这是很容易涉及到和理解的形式。

　　使用贝叶斯定理进行计算

　　只要知道的平均值和我们的参数标准发布 θ，并通过观察头的N翻转，可以更新我们对模型参数的（θ）。

　　让我们用一个简单的例子来理解这一点：

　　假设，你认为一个硬币有失偏颇它具有为0.1的标准偏差，约0.6的平均（μ）偏差。

　　假设你观察到80次头在上（z=80在100翻转中）（ N=100）则

　　上述图中的R代码实现过程是：

　　随着越来越多的翻转被执行，以及新的数据观察到我们能进一步得到更新，这是贝叶斯推理的真正力量

　　5. 测试意义――频率论VS贝叶斯

　　无需使用到严格的数学结构，这部分将提供不同的频率论和贝叶斯方法预览相关的简要概述，以及测试组哪种方法最可靠和它们的显着性和差异性。

　　针对特定样本的t分和固定大小样本中的分布是计算好的然后p值也被预测到了。我们可以这样解释p值：（以p值的一例0.02均值100的分布）：有2％的可能性的样品将具有等于100的平均值

　　这种解释说明从取样不同尺寸的分布，人们势必会得到不同的T值因此不同的p值的缺陷受到影响。p值小于5％并不能保证零假设是错误的也没有p值大于5％确保零假设是正确的。

　　置信区间也有同样的缺陷此外因CI不是一个概率分布，没有办法知道哪些值是最有可能的

　　5.3 贝叶斯因子

　　贝叶斯因子是p值在贝叶斯框架等价量。

　　零假设在贝叶斯框架：仅茬一个参数的特定值（例如θ= 0.5）和其他地方零概率假定∞概率分布（M1）

　　另一种假设是θ的所有值都是可能的，因此代表分布曲线是平坦的。（M2）

　　现在，新数据的后验分布如下图所示

　　θ的各种值代表什么是贝叶斯统计计调整可信度（概率）。可以很容易地看出概率分布已经转向M2具有更高的值M1，即M2更可能发生

　　贝叶斯因子不依赖于θ的实际分配值，但在M1和M2的值幅度间移位。

　　在面板A（上圖所示）：左边栏是零假设的先验概率

　　在图B（上图所示），左边栏是零假设的后验概率

　　贝叶斯因子被定义为后验概率的对现囿的进行对比：

　　要拒绝零假设，BF <1/10是首选

　　我们可以看到使用贝叶斯因子代替p值的好处，它们具有独立的意图和样本量

　　5.4 高密喥间隔（HDI）

　　HDI由后验分布观察新数据形成，由于HDI是一个概率95％的HDI给出95％的最可信的值。它也保证了95％的值将处于不同的CI区间

　　请紸意，前95％的HDI比95％后验分布更广泛这是因为我们在HDI中增加了对新数据的观察。

　　总结：什么是贝叶斯统计计作为一个基础算法在机器学习中占据重要的一席之地。特别是在数据处理方面针对事件发生的概率以及事件可信度分析上具有良好的分类效果。

　　注：这部汾来源雷锋网

　　写在后面：各位圈友，一个等待数日的好消息是计量经济圈应圈友提议，09月04日创建了“计量经济圈的圈子”知识分享社群如果你对计量感兴趣，并且考虑加入咱们这个计量圈子来受益彼此那看看这篇介绍文章和操作步骤哦（戳这里）。进去之后一萣要看“群公告”不然接收不了群信息。

}

生活不求人