云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

网站空间_企业级数据库_9元

小七 141 0

为什么大多数A/B测试都给你胡说八道的结果

到目前为止,任何产品或市场营销人员都知道什么是A/B测试。我们不知道,或者至少不会承认的是,太多的A/B测试没有结果。太多的时候,他们测量无意义的变量,产生不确定的结果,而且什么也没有从中产生。当然,有些A/B测试会产生真实、有意义、可操作的结果。你听说的就是这些。我们都看过文章。X公司用这个简单的技巧增加了38%的转化率。见鬼,我写了一些。但这些成功的故事隐藏了测试和实验的灰色底蕴。AppSumo透露,8次测试中只有1次产生结果。冯凯撒估计,他所做的A/B测试中,80%到90%的结果在统计学上是不重要的。然而,许多新的测试人员走进A/B测试,他们认为这将是快速和容易得到结果。在运行了一些简单的测试之后,他们认为他们会找到这个按钮的正确颜色或者主题行的正确调整,并且转换率会像魔术一样增加38%。然后,他们开始在他们的应用程序或网站上运行测试,而现实突然降临。测试没有结果。它们产生"统计上不重要"的结果,也没有对产品或用户有价值的见解。怎么回事?那38%的颠簸和随后的拍拍在哪里?别灰心。如果你要运行A/B测试,你会有一些测试没有产生有意义的结果,你可以从中学习。如果你的测试成功率和失败率都比较低的话,那么你的成功率就会下降。通过进行深思熟虑的A/B测试,您将获得更具统计意义的结果和实际经验,从而改进您的产品。这让你看起来像是从你运行的每一个A/B测试中学习。你没有,但是(几乎)没有人坐下来写一篇关于他们测试三个变体的博客文章,没有发现在转换上有明显的区别。这意味着结果在统计学上并不显著,不足以从实验中得出任何结论。本质上,它是问在你的A和B之间没有任何实际差异的情况下,得到这些相同结果的可能性有多大,或者结果的性能差异甚至更大*假设你扔了两个硬币,每枚20次。硬币A落在头上12次。硬币B在头上落了九次。你不会急着说你发现了一枚硬币,在头部落地成功率高出33%,对吧?从你对硬币的理解来看,你知道两者的区别只是偶然的。没有统计学意义。现在,如果你再把每个硬币扔180次,硬币A落在头上120次,硬币B落在头上90次,很明显,一些重要的事情正在发生。但是,我们再次知道,这不会发生。在200次投掷之后,每一次落在头上的次数可能还是有一点不同,但这是偶然的。任何区别都只是噪音。这看起来像是一个愚蠢的实验。当然,两个硬币的表现不会有明显的不同。但是,老实说,这正是为什么如此多的A/B测试产生了不确定的结果。我们浪费时间在没有任何真正有意义的差异的情况下测试变体,不出所料,我们最终得到的是一堆没有统计意义的结果的测试。如果有人要为此负责,那就是那个愚蠢的按钮例子的错。按钮颜色实验是"你好,世界!"A/B测试。这是一个简单的例子,很好地解释了这个概念。因此,毫无疑问,当A/B测试第一次被解释时,有人使用按钮颜色示例,页面的一个变体有一个绿色按钮购买按钮,一个有一个红色按钮。运行测试,看看哪个颜色按钮的转换率更高。而事实是,一些公司已经进行了按钮实验,并实际收到了有意义的结果,以改进他们的产品。如果你想让你的用户与某个东西交互,那么让它脱颖而出当然是有价值的。也就是说,正如大多数运行过这个实验的人所发现的,虽然按钮颜色是描述A/B测试的一个很好的方法,但它很少是一个有意义的方法来改进你的产品。大约一个半月前我做了一个毫无意义的测试。Mixpanel很少向我们的主列表发送电子邮件。我们通常只向订阅了博客的用户发送我们的新文章(您可以在本文的底部这样做)。但是自从一个大的发送已经有一段时间了,所以我们可以把Grow&Tell系列的最新内容发电子邮件给我们的大部分用户,这是一个关于QuizUp向社交平台转型的功能。这似乎是进行快速a/B测试的最佳时机。这封邮件的主题是"为什么1500万用户不适合这个手机琐事应用"。但我听说用你公司的名字发一封电子邮件可以提高开放率,所以我做了一个变体,主题是"Mixpanel——为什么1500万用户不适合这个手机琐事应用程序。"很简单,对吧?如果它表现得更好,我们可以把我们学过的东西用在上面,用我们的名字开始每一个主题,提高我们所有电子邮件的开放率,希望能提高结果——人们在做你现在正在做的事情,读我们的文章。这封邮件发给了数十万用户,分为两个版本。然后我不耐烦地等待着我的成功。当结果出来的时候,它们在统计学上的显著性不可能降低。没有"Mixpanel"的主题行的开放率为22.75%。"Mixpanel"组开放率为22.73%。相差0.02%。几十万封邮件发送后,我的测试结果是20次打开。不管怎么说,我都在掷硬币。即使有这么大的样本量,我的测试也没有足够的对比度来产生显著的结果。我什么也没学到,只是更认真地对待考试。那么我能做些什么来获得更显著的结果呢?好吧,首先,我可以测试一个完全不同的主题。就像"为什么QuizUp将历史上增长最快的游戏变成了一个社交平台"这样一篇不那么耀眼但更具语义的文章一样,这种对比将有更大的机会产生统计上显著的结果。但即便如此,除了一个比另一个做得更好,我还能学到什么呢?我会从中采取什么行动?也许如果我再测试几次,我就能得出一个大结论:我们的读者更喜欢闪烁的主题行还是语义的主题行。我的测试毫无意义,因为它构建得不好,也不是一个更大的策略的一部分,它问的是什么对我们的读者重要。这是快速和简单,但它没有去任何地方。A/B测试从来没有看起来那么简单。如果你想要结果,那就需要努力。要么花时间深思熟虑地、战略性地测试许多小东西,希望找到一系列小的改进,比如不同的图片、稍有不同的设计,以及在你的行动呼吁文本中的变化。这是A/B测试人员的一个阵营,"优化您的成功之路"测试人员。另一个阵营包括开发产品特性和测试完全不同的体验的人,比如重新处理用户登录的过程。通过A/B测试,您可以找到有价值的经验教训并改进您的产品,但这需要一些艰苦的工作。我不是唯一一个考虑这个的人。最近,我与Jobr的联合创始人Hari Ananth谈了一些他们为提高用户获取率而进行的一些并不那么毫无意义的A/B测试。Hari告诉我:"我们想改进我们的入职流程,让更多的用户进入应用程序并刷卡。Jobr是一个允许求职者刷,火柴风格,通过策划的工作机会。"我们确定了漏斗中的两个关键步骤,并为每个实验建立了足够广泛的变体列表,以确保适当的覆盖范围。在通过每个变体发送足够的流量后,我们能够整合优化的流量并将转换率提高225%。"Jobr基本上重建了他们的入职流程,根据用户退出前一个流程的位置的数据进行通知。科齐的A/B测试更多的是在"优化你的成功之路"阵营。在去年夏天的一次办公时间谈话中,塔拉•普回忆了他们自己消除用户登录时摩擦的过程。在塔拉测试完假设后,比特能够将假设融入到塔拉的流程中。有些是一些小的美学调整,比如换成更浅的背景。还有一些更大的改变要求用户减少步骤并消除流程中的摩擦,比如预填充表单和消除复选框。没有一个单一的变化导致转换率的大幅度增加。但综合起来,这些改进将注册完成率从55%提高到76%。运行产生有意义结果的测试这并不是随机的,这些实验能够摆脱A/B测试经常遇到的困境,并产生有意义的结果。这些实验是为了测试产品有意义的方面,这些方面对用户的行为有很大的影响。当然,他们进行了足够多的实验,得出了有统计学意义的结果。所以,如果你厌倦了胡说八道的结果,你想在转化率上提高38%,以得到赞许和良好的案例研究,然后投入工作。花点时间构建有意义的A/B测试,你会得到有意义的结果。*编者按:这句话以前是这样写的,"本质上它是在问,你的变体的性能差异仅仅是偶然性造成的可能性有多大。"经过一点反馈和与特雷·考西的交谈,这句话被修改了。