前Google产品负责人:如何通过AB测试驱动产品优化?PMCAFF PMCAFF 小助手 4天前 10:34
7月7日,吆喝科技CEO 前Google产品负责人 王晔在PMCAFF社区举办了问答专场活动。本次活动中王晔分享了大量关于对A/B测试系统、大规模复杂系统、数据挖掘和分析的干货,两个小时他们到底聊了什么?以下为本次活动速记。
感谢志愿者@木子小姐对本次分享的精心整理。
▍如何判断一个需求可以做?
毕竟现在都求要快速出产品,快速迭代,产品定位确定方法。
答:产品方向要依靠过去的AB测试的经验教训。对一个新需求,如果试验过类似的功能或者改版,试验结果比较积极,那就值得去投入开发和试验。如果过去做过类似的试验,效果不好,那就谨慎投入。
比如Facebook曾经做过一款改版,UI变成以图片为中心,结果试验结果显示营收下滑10个多点。所以现在Facebook就不会再盲目的尝试以图片为中心。
如果从来没有做过类似试验的AB测试,新需求开发当然是根据咱们自己对自己用户的需求强度来排期。
多多积累经验是必不可少的,多做风险可控的试验。
▍AB测试是万能的吗?
答:AB测试不是万能的。首先AB测试是用来判断新想法和现有产品哪个更好的。换句话说,现有产品已经满足了用户的某种需求。然后我们用AB测试的方法,去尝试新的改进或者新的功能。
如果一个全新的产品推出上市,AB测试就帮不了你。比如说,一个社交产品,要完全改成一个游戏,那么AB测试就完全用不上。
另外,AB测试注重的是产品决策的验证和分析,而不是产生决策。比如说如果你想试验一个抽奖的功能,那么这个抽奖的功能,并不是来自AB测试,而是你自己对用户需求的理解。
如果你从来不用AB测试,那么AB测试最适合的场景就是你下一次产品改版,或者上新功能的时候。以前产品改版或者增加新功能,不做试验就上线了,可能实际上你让你的用户活跃或者转下降了5%,但你并没有发现。现在你可以在上线之前用AB测试方法试验一下,看一看用户数据会有什么变化,只有那些使你获得增长的变化你才上线,你就可以实现产品的持续优化迭代,不断改进。
尝试这样的思路,就会发现AB测试能干什么以及不干什么。
▍针对同一用户群推送不同活动,同一活动推送不同人群,哪一种更有意义?
问题是关于A/B test 在H5活动链接的测试,一家活动运营的saas工具,商家一站试创建奖品和活动,在不同渠道推广。
答:H5营销,特别是在微信或者其他渠道分发的h5页面,是活动运营的一个很常用的手段。我们都很重视h5营销页面的转化率。我们会利用很多手段来优化用户转化谷歌驱动,比如针对不同用户群推送不同活动。但是我们不确定这些方法是否有效。
最好的方法是,首先确定h5页面的主要内容和主要框架,然后制作页面,可以采用不同的设计版式和设计思路。把页面先推给所有用户,然后对不同的设计用AB测试的方法对比验证哪个更好,将最好的设计方案推送给所有用户。
然后以这一版页面为基础,做进一步的优化,包括给不同人群展示不同的内容和创意。不同人群,比较有效的分类方法是根据用户需求进行分类,比如说,来自于什么搜索词。比如网络金融产品,对于搜索风险低 的用户,和搜索 回报高 的用户,我们可以用定向试验的方法,给他们展示不同的h5页面。
类似的例子还有,对于女性消费者,我们尽量展示折扣。对于男性消费者,我们尽量展示到底多少钱。
当然,这样的个性化展示策略,还是要对比咱们原来那个不个性化的基准页面,AB测试看哪个更好,然后只有更好的策略才上线。
▍一款app在做灰度发布时,可能会针对性的给一小批种子用户发送下载链接,或者到小的应用市场去发布,但目前对灰度发布的理解并不是很全面,请问具体的灰度发布需要怎么操作及注意哪些问题呢?
答:App在发布之前,可能会针对性的给一小批种子用户发送下载链接,或者到小的应用市场去发布。用小流量发布的方式来检验新版会不会有问题。这个就是灰度发布的思想,只发布给一小部分用户。
灰度发布是非常必要的产品上线流程。如果一个新的改版有bug,不经灰度直接发布给所有用户,那是产品经理的噩梦
然后,如果用AB测试的方法来做灰度发布,会更加有帮助。
首先,AB测试选取的小流量是具有全用户代表性的流量,这个很重要。如果你只用chrome浏览器用户做灰度,那么ie里的bug就可能漏掉。
其次,AB测试不仅可以检查出来功能上产品上的问题,还能发现用户体验问题,比如B版用户的下单率大幅度下降了,就说明B版的产品设计层面有问题。
最后,AB测试支持流量的实时调整,可以把成功的B版发布流量从1%一键增加到10%,还可以一键发布到全体用户。更重要的是,可以一键关闭有问题的试验版本,不用经过应用商店审核,及时止损。
灰度发布可以对产品有很多很多好处,非常重要。
▍产品上线时间紧张,ABtest时段却需要相当长的时间来验证时,在初步优化上应该怎么做?
答:先尝试对转化和留存最重要的产品环节,比如广告着陆页面,新用户注册流程,购买付费流程,核心功能的触点设计,等等。这些地方试验优化一下,用全流量50%做试验,很快就能看到效果。因为试验流量大,试验结果的置信区间收敛很快。
一般试验周期要有7天,覆盖周末和周中的用户行为。确实时间比较长。
不过当你熟练做大流量试验之后,可以同步并行的做一些大胆的小流量试验,比如对1%的用户把字体放大一号,或者2%的试验把背景色换掉,看看会发生什么。
正常情况下,我们需要大流量试验来验证大型新功能,比如新推荐算法,新学习模型,新聊天功能。然后我们可以同时用流量分层的方法做很多很多小试验,比如改UI改文案,看看有什么改变能带来用户转化的提升。同时跑10个以上的试验很正常,这种并行决策实际上大幅度提高了产品优化效率,而不会延缓迭代。
▍论坛帖子类的app,怎么做算法使内容丰富且刷新后重复概率小?
答:这个问题太专业,其实不够资格回答这个问题。
不过我可以说说外行的看法
要让新帖子更多,就需要多做用户运营和内容运营。
产品上,鼓励用户多生产内容,比如新发帖子有奖励,长回复可以很方便的生成独立帖子,以及打通微博等内容平台,方便用户在其他平台发内容的时候在我们的平台同步发。
排序算法可以把用户没有看过的帖子排在前面,帖子新鲜度高的排在前面。还有,用户看过的帖子可以用淡颜色展示,让用户关注没有看过的内容。
当然,我说的所有这些方法都是错的,除非你实际用AB测试跑试验证明了有这些方案的产品能有更好的用户数据。
在这方面美团大众点评很有经验,他们会在你下拉刷新的时候不断给你推新店。
▍怎么定义电商平台的第一核心指标?
答:我个人的感觉,GMV,营收总量,利润额,肯定是最重要的优化指标。
还有很多值得重点关注的指标,比如购物车报废率,月复购率,周复购率,用户从进站到加入购物车所需要的时间,商品详情页下单率,推荐商品点击率,等等。
另外,这些指标本身并不好统计准确。数据的准确追踪是个复杂的技术问题,原则上是尽量统计简单的事件和时间戳,然后通过组合多个简单指标来实现统计很复杂的指标。
▍对于创业型公司,怎么说服老板重视AB测试,如何从0到1完成AB测试?
答:如果老板本身就是产品的决策者,那就跟他说说人人网的案例。人人网的信息流页面借鉴了Facebook的一个试验版本的设计。不过这个设计在Facebook做的AB测试里表现不佳,降低了10%以上的营收,降低了用户活跃度。人人网不做试验直接上线的裸奔方法,是在碰运气,不是在做企业。
顶级的PM也只能跑赢一半的AB测试,现实中超过20%的试验都是对公司业务起反作用的……这个风险不值得冒。
像Uber, Airbnb, Wish这些新一代的企业,都是从第一天开始就做AB测试来做产品迭代优化的,所以他们才会不断提升高速发展。
如果老板让你全权负责产品,那就先斩后奏,先跑一两个简单的试验,把试验结果给老板看。相信她很快就能明白你为公司的良苦用心。
▍什么情况下需要或者适合做A/B测试?
答:其实当产品到一定规模的时候,任何改版都应该首先经过AB测试小流量验证。
如果从来没有用过AB测试,那可以先尝试从一个小改动开始,熟悉AB测试的实施流程。
然后就像我们前面说的那样,在关键环节的修改上做实验。
特别是后端算法变更,更是必须经过AB测试。我们有个客户通过AB测试迭代后端的商品推荐算法,发现一个经典算法可以提升推荐商品购买率5%。
如果没有经过AB测试,可能后端大牛的贡献就被埋没了
关键环节熟练之后,我们可以并行的去尝试更多的地方的修改。
最终形成一套以AB测试为核心环节的上线流程。
需求评审 – 建立试验方案 – 新功能开发 – 灰度发布 – 小流量AB测试 – 发布成功的功能,关闭失败的。
▍在本来用户量就不多的情况下,AB测试时的样本量如何取舍?
答:如果用户量小,就50% 50%对比试验。分层试验可以大幅度增加并行试验数量。
换句话说就是做大流量试验。
特别提一句,如果可以采样的用户数量不到1000,那么基本AB测试结果就没用了,会得到非常”宽“的置信区间。
比如[-500%,+700%]这样的试验结果。
▍平台类的系统,一开始开发时总会有些需求没有考虑到,后续有一些需求需要改变基础架构。涉及基础架构的模块优化,若成本相当,此时优化还是填坑?
答:架构是具有决定性影响的技术决策。如果架构不好用了,那么只能一边修修补补硬撑业务,一边重构等待测试和迁移。
如果架构和需求不对路,基本上就没法长久。比如Yahoo使用人工维护搜索词的索引…
架构的迁移如果可能,也可以利用灰度发布来做,把前端流量分一小部分到新后端系统上,看看数据。如果数据有问题,赶紧回去改。
▍在公司的网站框架已搭好的情况下,网站优化应该基于原有框架还是用户体验?
答:这两者好像并不矛盾,都非常重要啊。
基于已有的框架,小步快跑,迅速迭代,这个很有必要。同时每次迭代的时候,做试验就是为了看能不能提升用户体验。
这个问题可能是说现有的框架有局限性,没法支撑用户的体验需求。那么和上一个问题一样,我的经验是必须迁移到更好的新框架。
我们吆喝科技的AppAdhoc官网以及用户后台已经迁移好几次了。现在的框架已经经过多次迭代。
▍互联网产品应该如何将自己的产品数据 融入到大数据背景下,得到更多有价值的挖掘信息呢?
答:恩,这是一个很深刻的问题,好宏观。
在产品的发展方向上,可以多多的积极的借鉴行业数据报告来指导我们改进的思路。集思广益,多做AB测试实验。
产品产生的数据和其他数据源的数据融合,一般需要一些打通,比如基于用户id等。
(接上个问题)大家应该请教Domo的高手,就知道怎么做数据融合
▍社区服务类的020产品,有没有什么好的功能或内容,让业主们钟爱的?主要是国内外,有没有运营的好的案例?
答:一般来说,高频的内容需求是非常适合O2O产品的额外功能的,比如家庭空气质量
家人居住舒适度
补订牛奶,补订酸奶,补订椰奶
对于低频的需求,很可能主要流量是来自于搜索
那么更具搜索关键词做一些产品入口的优化,引导消费者留意到产里附加的高频功能,一定很有用。Airbnb就会提醒你工作一周好辛苦,周末天气好,要不要出去玩。这种思路非常不错。放松是高频需求,旅游是低频需求,但是两者可以互相导流的。
▍产品设计上有哪些可以间接引导用户搜索出自己想要的结果?比如电商,有时候用户也不能很清晰的明白自己想买的是什么,推送的数据如何计算?
答:可以放一个”点击此处有惊喜“之类的功能,引导用户去探索自己的需求。
在搜索栏那里给用户推荐一些搜索关键词
根据经验,在一个类似百度糯米的App结构里面,搜索的销量占到30%以上。几个大圆圈分类占到30%。广告占到30%。还有推荐算法推荐的内容,可以占到1%到10%。
推荐算法好的话,是可以占到10%的,这就需要有巧思。不仅是”和你类似的用户喜欢买什么“,还有“你买的东西别人如果买了还会买什么”,以及考虑“你附近的人都喜欢买什么”,等等。
在时间维度,空间维度,话题维度,等等,都可以找到可以推荐的内容。
▍做众包的产品,人人快递,请问在产品上可以如何优化用户发单的转化?
答:免费促销
当然,这是在说运营以及市场。
在产品层面,我们可以沿着这个思路去尝试。
比如说定价策略,可以把价格订的高一些,然后着重强调优惠,折扣,等等。
对于特别理性的用户,可以做产品内的“促销”,比如派单有积分,连续派单有奖励。
还有上面提到的从用户的其他高频需求入手:提醒该给女朋友送玫瑰花了。
另外,找一找你的magic number,看看什么特征的用户派单比较多,然后针对这个发力。
知乎发现一个回答了3个以上问题的用户,会比其他用户活跃度高100%以上。
所以知乎会邀请新注册用户回答3个问题。
▍ab测试 切用户和切服务器的依从什么样的需求?
答:尽量从用户端,也就是客户端来做流量分割。这是因为后端流量分割更容易得出不准确的结果。
举例来说,后端做了一个新功能,让某个用户来试验体验这个功能。后端指令发出去了,但是前端版本升级或者操作系统出了问题,可能用户就没有真的进入这个试验。
那样试验结果统计就有问题。特别是某些浏览器或者某些手机型号,真的不太容易保证渲染正确。
适合做后端分流的试验一般是推荐算法,排序算法之类的纯粹逻辑。
UI,用户交互,促销,推送,新功能,都适合在前端做分流测试。
▍当产品日活量在50万的时候这个时候应该是拉新还是留旧?
答:这个当然要听老板的。
如果你就是老板,那么我建议你专注在留存和转化的优化上。
已经被无数个优秀的产品证明过,用户粘性是最重要的。
拉新是可以在留存超过竞品很多之后再做的事情。
▍在产品的运营过程终中,会对某些模块进行一些探索性的运营测试,如果产品框架搭不好,就导致每次测试都需要迭代产品。对于产品框架的搭建,有什么好的建议?
答:推荐使用AppAdhoc的模块化开发方法。
定义和使用试验变量来控制新功能的模块,保证可以用一个变量作为模块的开关,随时在线打开或者关闭某个模块。另外,模块开发过程中,可以用变量来让模块更加容易测试。
随时测试模块里的参数是3好还是4好,按钮位置是左边好还是右边好,文案是“立即升级”好还是”至尊会员“好等等。
具体的在开发方法,在我们官网的文档里有详细的介绍。
这套模块化开发方法,和Google内部几乎一模一样,有非常高的参考价值。
▍AB测试中变量如何控制?
比如说样本大小,测试周期等等。
答:试验的周期一般是7天,覆盖周末和周中的用户行为。
对于复杂一些的测试谷歌驱动,可以跑2周甚至1个月。
样本大小,有一个很巧妙的办法,就是看试验结果的置信区间的收敛速度,如果置信区间达到[3%,5%]已经可以决策了,就可以停止试验了。
关于试验的设计,实施,和各种经验,我们可以线下详细讨论。
▍前端AB测试与后端AB测试的区别?
答:这个刚才有个问题有涉及。后端测试就是在后端分流
当然,后端测试也可以在前端分流,然后分流之后的用户请求带上试验标签,后端可以根据标签进行不同的响应。
还是那句话,尽量多在前端分流。纯粹后端AB测试就只做纯逻辑改动的大流量试验。
▍如何更高效带产品团队?
答:这个我有一个非常靠谱的建议。
让PM们,特别是年轻的PM们,都脑洞打开的去做各种各样的小流量的AB测试。
让他们发挥自己的创意,小到改改文案改改颜色,大到一个新的小功能。
然后带他们一起开会,会上分享试验经验教训,分享实验报告,总结经验教训,互相提意见。
相信我,3个月后,你会拥有一支产品经理的特种部队
▍产品优化应该从哪里着手呢?
答:产品优化的着手在前面一个问题已经说过了,还是从关键环节入手,特别是流失率比较大的环节。
比如新用户注册,可以试试看大幅度简化,比如不要文案,就给出用户注册的必要填空框。
说不定AB测试能发现这个提高注册率
▍在Boss产品下,怎么提出自己的想法?
答:跟Boss说竞争对手做了新改动
向Boss提议做一个1%流量的试验,肯定比向Boss申请上线一个新功能要容易很多。
▍社交类的AB测试应注意一些什么?
答:有一个特别需要注意的是试验单位。
只有试验单位互相不怎么干扰的时候,实验结果才可信。
所谓”试验单位“之间”没有依赖性“
比如如果你是给男女朋友聊天用的工具,那一对couple就应该划为一个试验单位。
如果男朋友进入了一个试验,那就得保证女朋友也进入同样的试验。
两个人同时体验新功能。
否则,两个人行为互相充分干扰,男朋友看到这个功能,女朋友那里没有这个功能,这个试验就会出问题了。
其他的要注意的和别的行业也都差不多,就不多说了。
▍请问to B的产品应该如何做AB测试呢?
答:2B和2C没有什么不同,但是难点是流量很小,很难得出有统计意义的结论。
但是2B可以针对大客户的行为做针对性优化,比如仔细观察一个改版会怎么影响王思聪的下单率,肯定能产生效果。
▍流量特别少,如何做AB测试,我想问下,多少用户开始做测试是有意义的,得出来的测试区间是比较科学的?
答:需要1000个样本的采样。用户数量不到1000就不行。
推荐日活1000以上就开始做试验。
▍不同语言国家地区的ABtest都不同往往做7天以上还得不到充足的样本数量,这时候怎么办?推广想办法么?
答:哈哈,主要是中国太大,其他国家太小。所以还是中国企业幸福,可以充分利用AB测试
▍问一个比较细节的问题 app做ab测试呢 比如ios
答:iOS也可以集成我们AppAdhoc的SDK,就可以很方便的做AB测试了
这个工具方面,已经非常完善和强大了。
想要参与专家问答活动,请添加微信(linyi425)进行咨询。
限时特惠:本站每日持续更新海量设计资源,一年会员只需29.9元,全站资源免费下载
站长微信:ziyuanshu688