谷歌驱动-前Google产品负责人：如何通过AB测试驱动产品优化？

前Google产品负责人：如何通过AB测试驱动产品优化？PMCAFF PMCAFF 小助手 4天前 10:34

谷歌驱动_谷歌nexus7二代驱动_谷歌nexus 7 平板安装时无法访问谷歌

7月7日，吆喝科技CEO 前Google产品负责人王晔在PMCAFF社区举办了问答专场活动。本次活动中王晔分享了大量关于对A/B测试系统、大规模复杂系统、数据挖掘和分析的干货，两个小时他们到底聊了什么？以下为本次活动速记。

感谢志愿者@木子小姐对本次分享的精心整理。

▍如何判断一个需求可以做？

毕竟现在都求要快速出产品，快速迭代，产品定位确定方法。

答：产品方向要依靠过去的AB测试的经验教训。对一个新需求，如果试验过类似的功能或者改版，试验结果比较积极，那就值得去投入开发和试验。如果过去做过类似的试验，效果不好，那就谨慎投入。

比如Facebook曾经做过一款改版，UI变成以图片为中心，结果试验结果显示营收下滑10个多点。所以现在Facebook就不会再盲目的尝试以图片为中心。

如果从来没有做过类似试验的AB测试，新需求开发当然是根据咱们自己对自己用户的需求强度来排期。

多多积累经验是必不可少的，多做风险可控的试验。

▍AB测试是万能的吗？

答：AB测试不是万能的。首先AB测试是用来判断新想法和现有产品哪个更好的。换句话说，现有产品已经满足了用户的某种需求。然后我们用AB测试的方法，去尝试新的改进或者新的功能。

如果一个全新的产品推出上市，AB测试就帮不了你。比如说，一个社交产品，要完全改成一个游戏，那么AB测试就完全用不上。

另外，AB测试注重的是产品决策的验证和分析，而不是产生决策。比如说如果你想试验一个抽奖的功能，那么这个抽奖的功能，并不是来自AB测试，而是你自己对用户需求的理解。

如果你从来不用AB测试，那么AB测试最适合的场景就是你下一次产品改版，或者上新功能的时候。以前产品改版或者增加新功能，不做试验就上线了，可能实际上你让你的用户活跃或者转下降了5%，但你并没有发现。现在你可以在上线之前用AB测试方法试验一下，看一看用户数据会有什么变化，只有那些使你获得增长的变化你才上线，你就可以实现产品的持续优化迭代，不断改进。

尝试这样的思路，就会发现AB测试能干什么以及不干什么。

▍针对同一用户群推送不同活动，同一活动推送不同人群，哪一种更有意义？

问题是关于A/B test 在H5活动链接的测试，一家活动运营的saas工具，商家一站试创建奖品和活动，在不同渠道推广。

答：H5营销，特别是在微信或者其他渠道分发的h5页面，是活动运营的一个很常用的手段。我们都很重视h5营销页面的转化率。我们会利用很多手段来优化用户转化谷歌驱动，比如针对不同用户群推送不同活动。但是我们不确定这些方法是否有效。

最好的方法是，首先确定h5页面的主要内容和主要框架，然后制作页面，可以采用不同的设计版式和设计思路。把页面先推给所有用户，然后对不同的设计用AB测试的方法对比验证哪个更好，将最好的设计方案推送给所有用户。

然后以这一版页面为基础，做进一步的优化，包括给不同人群展示不同的内容和创意。不同人群，比较有效的分类方法是根据用户需求进行分类，比如说，来自于什么搜索词。比如网络金融产品，对于搜索风险低的用户，和搜索回报高的用户，我们可以用定向试验的方法，给他们展示不同的h5页面。

类似的例子还有，对于女性消费者，我们尽量展示折扣。对于男性消费者，我们尽量展示到底多少钱。

当然，这样的个性化展示策略，还是要对比咱们原来那个不个性化的基准页面，AB测试看哪个更好，然后只有更好的策略才上线。

▍一款app在做灰度发布时，可能会针对性的给一小批种子用户发送下载链接，或者到小的应用市场去发布，但目前对灰度发布的理解并不是很全面，请问具体的灰度发布需要怎么操作及注意哪些问题呢？

答：App在发布之前，可能会针对性的给一小批种子用户发送下载链接，或者到小的应用市场去发布。用小流量发布的方式来检验新版会不会有问题。这个就是灰度发布的思想，只发布给一小部分用户。

灰度发布是非常必要的产品上线流程。如果一个新的改版有bug，不经灰度直接发布给所有用户，那是产品经理的噩梦

然后，如果用AB测试的方法来做灰度发布，会更加有帮助。

首先，AB测试选取的小流量是具有全用户代表性的流量，这个很重要。如果你只用chrome浏览器用户做灰度，那么ie里的bug就可能漏掉。

其次，AB测试不仅可以检查出来功能上产品上的问题，还能发现用户体验问题，比如B版用户的下单率大幅度下降了，就说明B版的产品设计层面有问题。

最后，AB测试支持流量的实时调整，可以把成功的B版发布流量从1%一键增加到10%，还可以一键发布到全体用户。更重要的是，可以一键关闭有问题的试验版本，不用经过应用商店审核，及时止损。

灰度发布可以对产品有很多很多好处，非常重要。

▍产品上线时间紧张，ABtest时段却需要相当长的时间来验证时，在初步优化上应该怎么做？

答：先尝试对转化和留存最重要的产品环节，比如广告着陆页面，新用户注册流程，购买付费流程，核心功能的触点设计，等等。这些地方试验优化一下，用全流量50%做试验，很快就能看到效果。因为试验流量大，试验结果的置信区间收敛很快。

一般试验周期要有7天，覆盖周末和周中的用户行为。确实时间比较长。

不过当你熟练做大流量试验之后，可以同步并行的做一些大胆的小流量试验，比如对1%的用户把字体放大一号，或者2%的试验把背景色换掉，看看会发生什么。

正常情况下，我们需要大流量试验来验证大型新功能，比如新推荐算法，新学习模型，新聊天功能。然后我们可以同时用流量分层的方法做很多很多小试验，比如改UI改文案，看看有什么改变能带来用户转化的提升。同时跑10个以上的试验很正常，这种并行决策实际上大幅度提高了产品优化效率，而不会延缓迭代。

▍论坛帖子类的app，怎么做算法使内容丰富且刷新后重复概率小？

答：这个问题太专业，其实不够资格回答这个问题。

不过我可以说说外行的看法

要让新帖子更多，就需要多做用户运营和内容运营。

产品上，鼓励用户多生产内容，比如新发帖子有奖励，长回复可以很方便的生成独立帖子，以及打通微博等内容平台，方便用户在其他平台发内容的时候在我们的平台同步发。

排序算法可以把用户没有看过的帖子排在前面，帖子新鲜度高的排在前面。还有，用户看过的帖子可以用淡颜色展示，让用户关注没有看过的内容。

当然，我说的所有这些方法都是错的，除非你实际用AB测试跑试验证明了有这些方案的产品能有更好的用户数据。

在这方面美团大众点评很有经验，他们会在你下拉刷新的时候不断给你推新店。

▍怎么定义电商平台的第一核心指标？

答：我个人的感觉，GMV，营收总量，利润额，肯定是最重要的优化指标。

还有很多值得重点关注的指标，比如购物车报废率，月复购率，周复购率，用户从进站到加入购物车所需要的时间，商品详情页下单率，推荐商品点击率，等等。

另外，这些指标本身并不好统计准确。数据的准确追踪是个复杂的技术问题，原则上是尽量统计简单的事件和时间戳，然后通过组合多个简单指标来实现统计很复杂的指标。

▍对于创业型公司，怎么说服老板重视AB测试，如何从0到1完成AB测试?

答：如果老板本身就是产品的决策者，那就跟他说说人人网的案例。人人网的信息流页面借鉴了Facebook的一个试验版本的设计。不过这个设计在Facebook做的AB测试里表现不佳，降低了10%以上的营收，降低了用户活跃度。人人网不做试验直接上线的裸奔方法，是在碰运气，不是在做企业。

顶级的PM也只能跑赢一半的AB测试，现实中超过20%的试验都是对公司业务起反作用的……这个风险不值得冒。

像Uber, Airbnb, Wish这些新一代的企业，都是从第一天开始就做AB测试来做产品迭代优化的，所以他们才会不断提升高速发展。

如果老板让你全权负责产品，那就先斩后奏，先跑一两个简单的试验，把试验结果给老板看。相信她很快就能明白你为公司的良苦用心。

▍什么情况下需要或者适合做A/B测试？

答：其实当产品到一定规模的时候，任何改版都应该首先经过AB测试小流量验证。

如果从来没有用过AB测试，那可以先尝试从一个小改动开始，熟悉AB测试的实施流程。

然后就像我们前面说的那样，在关键环节的修改上做实验。

特别是后端算法变更，更是必须经过AB测试。我们有个客户通过AB测试迭代后端的商品推荐算法，发现一个经典算法可以提升推荐商品购买率5%。

如果没有经过AB测试，可能后端大牛的贡献就被埋没了

关键环节熟练之后，我们可以并行的去尝试更多的地方的修改。

最终形成一套以AB测试为核心环节的上线流程。

需求评审 – 建立试验方案 – 新功能开发 – 灰度发布 – 小流量AB测试 – 发布成功的功能，关闭失败的。

▍在本来用户量就不多的情况下，AB测试时的样本量如何取舍？

答：如果用户量小，就50% 50%对比试验。分层试验可以大幅度增加并行试验数量。

换句话说就是做大流量试验。

特别提一句，如果可以采样的用户数量不到1000，那么基本AB测试结果就没用了，会得到非常”宽“的置信区间。

比如[-500%,+700%]这样的试验结果。

▍平台类的系统，一开始开发时总会有些需求没有考虑到，后续有一些需求需要改变基础架构。涉及基础架构的模块优化，若成本相当，此时优化还是填坑？

答：架构是具有决定性影响的技术决策。如果架构不好用了，那么只能一边修修补补硬撑业务，一边重构等待测试和迁移。

如果架构和需求不对路，基本上就没法长久。比如Yahoo使用人工维护搜索词的索引…

架构的迁移如果可能，也可以利用灰度发布来做，把前端流量分一小部分到新后端系统上，看看数据。如果数据有问题，赶紧回去改。

▍在公司的网站框架已搭好的情况下，网站优化应该基于原有框架还是用户体验？

答：这两者好像并不矛盾，都非常重要啊。

基于已有的框架，小步快跑，迅速迭代，这个很有必要。同时每次迭代的时候，做试验就是为了看能不能提升用户体验。

这个问题可能是说现有的框架有局限性，没法支撑用户的体验需求。那么和上一个问题一样，我的经验是必须迁移到更好的新框架。

我们吆喝科技的AppAdhoc官网以及用户后台已经迁移好几次了。现在的框架已经经过多次迭代。

▍互联网产品应该如何将自己的产品数据融入到大数据背景下，得到更多有价值的挖掘信息呢？

答：恩，这是一个很深刻的问题，好宏观。

在产品的发展方向上，可以多多的积极的借鉴行业数据报告来指导我们改进的思路。集思广益，多做AB测试实验。

产品产生的数据和其他数据源的数据融合，一般需要一些打通，比如基于用户id等。

（接上个问题）大家应该请教Domo的高手，就知道怎么做数据融合

▍社区服务类的020产品，有没有什么好的功能或内容，让业主们钟爱的？主要是国内外，有没有运营的好的案例？

答：一般来说，高频的内容需求是非常适合O2O产品的额外功能的，比如家庭空气质量

家人居住舒适度

补订牛奶，补订酸奶，补订椰奶

对于低频的需求，很可能主要流量是来自于搜索

那么更具搜索关键词做一些产品入口的优化，引导消费者留意到产里附加的高频功能，一定很有用。Airbnb就会提醒你工作一周好辛苦，周末天气好，要不要出去玩。这种思路非常不错。放松是高频需求，旅游是低频需求，但是两者可以互相导流的。

▍产品设计上有哪些可以间接引导用户搜索出自己想要的结果？比如电商，有时候用户也不能很清晰的明白自己想买的是什么，推送的数据如何计算？

答：可以放一个”点击此处有惊喜“之类的功能，引导用户去探索自己的需求。

在搜索栏那里给用户推荐一些搜索关键词

根据经验，在一个类似百度糯米的App结构里面，搜索的销量占到30%以上。几个大圆圈分类占到30%。广告占到30%。还有推荐算法推荐的内容，可以占到1%到10%。

推荐算法好的话，是可以占到10%的，这就需要有巧思。不仅是”和你类似的用户喜欢买什么“，还有“你买的东西别人如果买了还会买什么”，以及考虑“你附近的人都喜欢买什么”，等等。

在时间维度，空间维度，话题维度，等等，都可以找到可以推荐的内容。

▍做众包的产品，人人快递，请问在产品上可以如何优化用户发单的转化？

答：免费促销

当然，这是在说运营以及市场。

在产品层面，我们可以沿着这个思路去尝试。

比如说定价策略，可以把价格订的高一些，然后着重强调优惠，折扣，等等。

对于特别理性的用户，可以做产品内的“促销”，比如派单有积分，连续派单有奖励。

还有上面提到的从用户的其他高频需求入手：提醒该给女朋友送玫瑰花了。

另外，找一找你的magic number，看看什么特征的用户派单比较多，然后针对这个发力。

知乎发现一个回答了3个以上问题的用户，会比其他用户活跃度高100%以上。

所以知乎会邀请新注册用户回答3个问题。

▍ab测试切用户和切服务器的依从什么样的需求？

答：尽量从用户端，也就是客户端来做流量分割。这是因为后端流量分割更容易得出不准确的结果。

举例来说，后端做了一个新功能，让某个用户来试验体验这个功能。后端指令发出去了，但是前端版本升级或者操作系统出了问题，可能用户就没有真的进入这个试验。

那样试验结果统计就有问题。特别是某些浏览器或者某些手机型号，真的不太容易保证渲染正确。

适合做后端分流的试验一般是推荐算法，排序算法之类的纯粹逻辑。

UI，用户交互，促销，推送，新功能，都适合在前端做分流测试。

▍当产品日活量在50万的时候这个时候应该是拉新还是留旧？

答：这个当然要听老板的。

如果你就是老板，那么我建议你专注在留存和转化的优化上。

已经被无数个优秀的产品证明过，用户粘性是最重要的。

拉新是可以在留存超过竞品很多之后再做的事情。

▍在产品的运营过程终中，会对某些模块进行一些探索性的运营测试，如果产品框架搭不好，就导致每次测试都需要迭代产品。对于产品框架的搭建，有什么好的建议？

答：推荐使用AppAdhoc的模块化开发方法。

定义和使用试验变量来控制新功能的模块，保证可以用一个变量作为模块的开关，随时在线打开或者关闭某个模块。另外，模块开发过程中，可以用变量来让模块更加容易测试。

随时测试模块里的参数是3好还是4好，按钮位置是左边好还是右边好，文案是“立即升级”好还是”至尊会员“好等等。

具体的在开发方法，在我们官网的文档里有详细的介绍。

这套模块化开发方法，和Google内部几乎一模一样，有非常高的参考价值。

▍AB测试中变量如何控制？

比如说样本大小，测试周期等等。

答：试验的周期一般是7天，覆盖周末和周中的用户行为。

对于复杂一些的测试谷歌驱动，可以跑2周甚至1个月。

样本大小，有一个很巧妙的办法，就是看试验结果的置信区间的收敛速度，如果置信区间达到[3%,5%]已经可以决策了，就可以停止试验了。

关于试验的设计，实施，和各种经验，我们可以线下详细讨论。

▍前端AB测试与后端AB测试的区别？

答：这个刚才有个问题有涉及。后端测试就是在后端分流

当然，后端测试也可以在前端分流，然后分流之后的用户请求带上试验标签，后端可以根据标签进行不同的响应。

还是那句话，尽量多在前端分流。纯粹后端AB测试就只做纯逻辑改动的大流量试验。

▍如何更高效带产品团队？

答：这个我有一个非常靠谱的建议。

让PM们，特别是年轻的PM们，都脑洞打开的去做各种各样的小流量的AB测试。

让他们发挥自己的创意，小到改改文案改改颜色，大到一个新的小功能。

然后带他们一起开会，会上分享试验经验教训，分享实验报告，总结经验教训，互相提意见。

相信我，3个月后，你会拥有一支产品经理的特种部队

▍产品优化应该从哪里着手呢？

答：产品优化的着手在前面一个问题已经说过了，还是从关键环节入手，特别是流失率比较大的环节。

比如新用户注册，可以试试看大幅度简化，比如不要文案，就给出用户注册的必要填空框。

说不定AB测试能发现这个提高注册率

▍在Boss产品下，怎么提出自己的想法？

答：跟Boss说竞争对手做了新改动

向Boss提议做一个1%流量的试验，肯定比向Boss申请上线一个新功能要容易很多。

▍社交类的AB测试应注意一些什么？

答：有一个特别需要注意的是试验单位。

只有试验单位互相不怎么干扰的时候，实验结果才可信。

所谓”试验单位“之间”没有依赖性“

比如如果你是给男女朋友聊天用的工具，那一对couple就应该划为一个试验单位。

如果男朋友进入了一个试验，那就得保证女朋友也进入同样的试验。

两个人同时体验新功能。

否则，两个人行为互相充分干扰，男朋友看到这个功能，女朋友那里没有这个功能，这个试验就会出问题了。

其他的要注意的和别的行业也都差不多，就不多说了。

▍请问to B的产品应该如何做AB测试呢？

答：2B和2C没有什么不同，但是难点是流量很小，很难得出有统计意义的结论。

但是2B可以针对大客户的行为做针对性优化，比如仔细观察一个改版会怎么影响王思聪的下单率，肯定能产生效果。

▍流量特别少，如何做AB测试，我想问下，多少用户开始做测试是有意义的，得出来的测试区间是比较科学的？

答：需要1000个样本的采样。用户数量不到1000就不行。

推荐日活1000以上就开始做试验。

▍不同语言国家地区的ABtest都不同往往做7天以上还得不到充足的样本数量，这时候怎么办？推广想办法么？

答：哈哈，主要是中国太大，其他国家太小。所以还是中国企业幸福，可以充分利用AB测试

▍问一个比较细节的问题 app做ab测试呢比如ios

答：iOS也可以集成我们AppAdhoc的SDK，就可以很方便的做AB测试了

这个工具方面，已经非常完善和强大了。

谷歌nexus7二代驱动_谷歌nexus 7 平板安装时无法访问谷歌_谷歌驱动

想要参与专家问答活动，请添加微信（linyi425）进行咨询。

限时特惠：本站每日持续更新海量设计资源，一年会员只需29.9元，全站资源免费下载
站长微信：ziyuanshu688

主题授权提示：请在后台主题设置-主题授权-激活主题的正版授权，授权购买：RiTheme官网

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

ab测试软件