网站空间_企业级数据库_9元

小七 2019年10月25日 21:23 141 0

为什么大多数A/B测试都给你胡说八道的结果

到目前为止，任何产品或市场营销人员都知道什么是A/B测试。我们不知道，或者至少不会承认的是，太多的A/B测试没有结果。太多的时候，他们测量无意义的变量，产生不确定的结果，而且什么也没有从中产生。当然，有些A/B测试会产生真实、有意义、可操作的结果。你听说的就是这些。我们都看过文章。X公司用这个简单的技巧增加了38%的转化率。见鬼，我写了一些。但这些成功的故事隐藏了测试和实验的灰色底蕴。AppSumo透露，8次测试中只有1次产生结果。冯凯撒估计，他所做的A/B测试中，80%到90%的结果在统计学上是不重要的。然而，许多新的测试人员走进A/B测试，他们认为这将是快速和容易得到结果。在运行了一些简单的测试之后，他们认为他们会找到这个按钮的正确颜色或者主题行的正确调整，并且转换率会像魔术一样增加38%。然后，他们开始在他们的应用程序或网站上运行测试，而现实突然降临。测试没有结果。它们产生"统计上不重要"的结果，也没有对产品或用户有价值的见解。怎么回事？那38%的颠簸和随后的拍拍在哪里？别灰心。如果你要运行A/B测试，你会有一些测试没有产生有意义的结果，你可以从中学习。如果你的测试成功率和失败率都比较低的话，那么你的成功率就会下降。通过进行深思熟虑的A/B测试，您将获得更具统计意义的结果和实际经验，从而改进您的产品。这让你看起来像是从你运行的每一个A/B测试中学习。你没有，但是（几乎）没有人坐下来写一篇关于他们测试三个变体的博客文章，没有发现在转换上有明显的区别。这意味着结果在统计学上并不显著，不足以从实验中得出任何结论。本质上，它是问在你的A和B之间没有任何实际差异的情况下，得到这些相同结果的可能性有多大，或者结果的性能差异甚至更大*假设你扔了两个硬币，每枚20次。硬币A落在头上12次。硬币B在头上落了九次。你不会急着说你发现了一枚硬币，在头部落地成功率高出33%，对吧？从你对硬币的理解来看，你知道两者的区别只是偶然的。没有统计学意义。现在，如果你再把每个硬币扔180次，硬币A落在头上120次，硬币B落在头上90次，很明显，一些重要的事情正在发生。但是，我们再次知道，这不会发生。在200次投掷之后，每一次落在头上的次数可能还是有一点不同，但这是偶然的。任何区别都只是噪音。这看起来像是一个愚蠢的实验。当然，两个硬币的表现不会有明显的不同。但是，老实说，这正是为什么如此多的A/B测试产生了不确定的结果。我们浪费时间在没有任何真正有意义的差异的情况下测试变体，不出所料，我们最终得到的是一堆没有统计意义的结果的测试。如果有人要为此负责，那就是那个愚蠢的按钮例子的错。按钮颜色实验是"你好，世界！"A/B测试。这是一个简单的例子，很好地解释了这个概念。因此，毫无疑问，当A/B测试第一次被解释时，有人使用按钮颜色示例，页面的一个变体有一个绿色按钮购买按钮，一个有一个红色按钮。运行测试，看看哪个颜色按钮的转换率更高。而事实是，一些公司已经进行了按钮实验，并实际收到了有意义的结果，以改进他们的产品。如果你想让你的用户与某个东西交互，那么让它脱颖而出当然是有价值的。也就是说，正如大多数运行过这个实验的人所发现的，虽然按钮颜色是描述A/B测试的一个很好的方法，但它很少是一个有意义的方法来改进你的产品。大约一个半月前我做了一个毫无意义的测试。Mixpanel很少向我们的主列表发送电子邮件。我们通常只向订阅了博客的用户发送我们的新文章（您可以在本文的底部这样做）。但是自从一个大的发送已经有一段时间了，所以我们可以把Grow&Tell系列的最新内容发电子邮件给我们的大部分用户，这是一个关于QuizUp向社交平台转型的功能。这似乎是进行快速a/B测试的最佳时机。这封邮件的主题是"为什么1500万用户不适合这个手机琐事应用"。但我听说用你公司的名字发一封电子邮件可以提高开放率，所以我做了一个变体，主题是"Mixpanel——为什么1500万用户不适合这个手机琐事应用程序。"很简单，对吧？如果它表现得更好，我们可以把我们学过的东西用在上面，用我们的名字开始每一个主题，提高我们所有电子邮件的开放率，希望能提高结果——人们在做你现在正在做的事情，读我们的文章。这封邮件发给了数十万用户，分为两个版本。然后我不耐烦地等待着我的成功。当结果出来的时候，它们在统计学上的显著性不可能降低。没有"Mixpanel"的主题行的开放率为22.75%。"Mixpanel"组开放率为22.73%。相差0.02%。几十万封邮件发送后，我的测试结果是20次打开。不管怎么说，我都在掷硬币。即使有这么大的样本量，我的测试也没有足够的对比度来产生显著的结果。我什么也没学到，只是更认真地对待考试。那么我能做些什么来获得更显著的结果呢？好吧，首先，我可以测试一个完全不同的主题。就像"为什么QuizUp将历史上增长最快的游戏变成了一个社交平台"这样一篇不那么耀眼但更具语义的文章一样，这种对比将有更大的机会产生统计上显著的结果。但即便如此，除了一个比另一个做得更好，我还能学到什么呢？我会从中采取什么行动？也许如果我再测试几次，我就能得出一个大结论：我们的读者更喜欢闪烁的主题行还是语义的主题行。我的测试毫无意义，因为它构建得不好，也不是一个更大的策略的一部分，它问的是什么对我们的读者重要。这是快速和简单，但它没有去任何地方。A/B测试从来没有看起来那么简单。如果你想要结果，那就需要努力。要么花时间深思熟虑地、战略性地测试许多小东西，希望找到一系列小的改进，比如不同的图片、稍有不同的设计，以及在你的行动呼吁文本中的变化。这是A/B测试人员的一个阵营，"优化您的成功之路"测试人员。另一个阵营包括开发产品特性和测试完全不同的体验的人，比如重新处理用户登录的过程。通过A/B测试，您可以找到有价值的经验教训并改进您的产品，但这需要一些艰苦的工作。我不是唯一一个考虑这个的人。最近，我与Jobr的联合创始人Hari Ananth谈了一些他们为提高用户获取率而进行的一些并不那么毫无意义的A/B测试。Hari告诉我："我们想改进我们的入职流程，让更多的用户进入应用程序并刷卡。Jobr是一个允许求职者刷，火柴风格，通过策划的工作机会。"我们确定了漏斗中的两个关键步骤，并为每个实验建立了足够广泛的变体列表，以确保适当的覆盖范围。在通过每个变体发送足够的流量后，我们能够整合优化的流量并将转换率提高225%。"Jobr基本上重建了他们的入职流程，根据用户退出前一个流程的位置的数据进行通知。科齐的A/B测试更多的是在"优化你的成功之路"阵营。在去年夏天的一次办公时间谈话中，塔拉•普回忆了他们自己消除用户登录时摩擦的过程。在塔拉测试完假设后，比特能够将假设融入到塔拉的流程中。有些是一些小的美学调整，比如换成更浅的背景。还有一些更大的改变要求用户减少步骤并消除流程中的摩擦，比如预填充表单和消除复选框。没有一个单一的变化导致转换率的大幅度增加。但综合起来，这些改进将注册完成率从55%提高到76%。运行产生有意义结果的测试这并不是随机的，这些实验能够摆脱A/B测试经常遇到的困境，并产生有意义的结果。这些实验是为了测试产品有意义的方面，这些方面对用户的行为有很大的影响。当然，他们进行了足够多的实验，得出了有统计学意义的结果。所以，如果你厌倦了胡说八道的结果，你想在转化率上提高38%，以得到赞许和良好的案例研究，然后投入工作。花点时间构建有意义的A/B测试，你会得到有意义的结果。*编者按：这句话以前是这样写的，"本质上它是在问，你的变体的性能差异仅仅是偶然性造成的可能性有多大。"经过一点反馈和与特雷·考西的交谈，这句话被修改了。

本文地址： /ziyuan/6718.html