ab测试调研

ab测试的方法论 第一大类:频率统计方法 #

  • 它先计算一个t值,并通过t值计算p值。数学含义是,比t值更极端的数值出现的可能性不高于几率p.
  • 频率统计学派并不能回答最常见的问题,P(a比b好) 是多少。
  • 频率统计给出的均值也没啥意义。因为方差的存在,好坏还真是很难讲得清。 好比比尔盖茨国籍上加入瑙鲁,人均财富变得很富有。但是你关心哪种财富分配方式更好。大的均值提高意义也不大。

Bayesian A/B Testing at VWO


ab测试的方法论 第二大类:贝叶斯方法 #

  • 简单地说,贝叶斯方法,就是用信念接受证据,用证据更新信念 进一步说,一般先验可能是任何分布,如果知道的东西越少,那可以假定是均匀分布。但是如果我们有自己的判断,那就可以用自己判断的那种分布。先验一开始课可能出错,但是如果允许反复迭代观察,最终我们的先验总会可以做到接近事实。
  • 从形式来看,我们采用的先验的形式一般写成贝塔分布的形式。然后根据我们的判断,设置其中的a,b参数。之所以采用beta分布,是因为beta 分布既可以接近一种万能的常见分布,又可以简单根据先验,写出后验分布。

参见知乎的讨论 五分钟概率论,写的很棒

  • 贝叶斯决策过程 贝叶斯决策主要包含四个部分: 数据(D), 假设(W),目标(O),决策(S)。 此处的数据即之前讲到的证据, 假设是我们要验证的事实, 目标是我们最终要取得优化的量, 决策时根据目标得到的最后行为。 与上一步贝叶斯分析增加的部分是目标和决策。假设在问题里如果是连续的往往以参数空间的形式表达。 然后我们可以按照如下步骤做: 第一, 理清因果链条, 哪个是假设, 哪个是证据 第二,给出所有可能假设 , 即假设空间 第三,给出先验概率 第四,根据贝叶斯概率公式求解后验概率, 得到假设空间的后验概率分布 第五,利用后验概率求解条件期望, 得到条件期望最大值对应的行为 2021-05-01 10:22:38 星期六

代码实现和想法 #

python 实现

  1. ab test 应该作为一个无所不在的独立模块使用
  2. ab test 应该提供一个展示的排序方式。来平衡注意力不对等对测试结果的偏差。