A/B測試軟件如何幫助企業(yè)提升轉化率
1、確立優(yōu)化目標
建議設立“可量化的、可以落實到某一個具體功能點的、可實施的小目標”。舉例來說,如果一個目標不好直接量化,例如“將用戶滿意度提升15%”,那么就不好形成一個具體的A/B測試方案。同理,如果這個目標太大太寬泛,也不好落地。一個可行的目標可以是“通過優(yōu)化注冊流程,將注冊轉化率提升20%”,這個目標可以量化,而且足夠具體,可以在后續(xù)流程中形成一系列相關的A/B測試實驗方案。
2、分析數(shù)據(jù)
通過數(shù)據(jù)分析,可以找到現(xiàn)有產(chǎn)品中可能存在的問題,只有先發(fā)現(xiàn)了某一個產(chǎn)品環(huán)節(jié)可能存在的問題,才好在后續(xù)流程中提出相應的優(yōu)化方案,以優(yōu)化這個環(huán)節(jié)的轉化率。
3、提出想法
可以針對數(shù)據(jù)分析發(fā)現(xiàn)的問題,針對性的提出產(chǎn)品優(yōu)化方案,例如優(yōu)化流程以提高轉化率,優(yōu)化設計和文案等等。一般來說,A/B測試的想法會以“假設”的方式提出。例如,“假設把注冊流程中的圖片校驗碼方式,改成短信校驗碼的方式,我們的注冊轉化率可能提升10%”。基于這個假設,我們會設計對應的A/B測試,并通過實驗的數(shù)據(jù)驗證這個假設是否成立。
4、重要性排序
在開發(fā)資源、版本排期、優(yōu)先級等因素的制約下,很可能不能對所有想法進行實驗。所以這一步最重要的目的就是根據(jù)重要性、潛在收益、開發(fā)成本等因素對所有想法進行優(yōu)先級的排序,并選擇最重要的幾個想法進行A/B測試。
5、實施A/B測試并分析實驗結果
A/B測試結果分成兩種:有效和無效。無效的A/B測試實驗是非常寶貴的經(jīng)驗,可以把無效實驗轉化成團隊經(jīng)驗,避免以后再犯同樣的錯誤。有效A/B測試成功提升產(chǎn)品轉化率,此時可以把優(yōu)勝版本正式推送給全部用戶,以實現(xiàn)產(chǎn)品用戶的有效增長。
6、迭代整個流程,進行下一輪A/B測試
在剛開始推行A/B測試時,很容易遇到“團隊成員經(jīng)驗尚淺,不確定哪些產(chǎn)品功能點做A/B測試效果會比較明顯”的問題。這個時候有兩種方法:一、針對轉化率低、可能通過改版獲得提升的產(chǎn)品功能點,精心設計A/B測試;二、快速進行一批簡單的A/B測試,只要其中一部分實驗取得成功,就能夠在團隊內部很好的推進A/B測試實施。
游戲企業(yè)如何做產(chǎn)品 A/B 測試?
商店 A/B 測試:通過 A/B 測試挑選最合適的游戲圖標、商店圖、商店視頻和商店文案;
廣告投放 A/B 測試:通過 A/B 測試發(fā)現(xiàn)哪一個受眾群體可以創(chuàng)造更高廣告價值;進行廣告投放的優(yōu)化,確認哪一種投放方式/投放素材可獲得最佳成果;
廣告變現(xiàn) A/B 測試:在變現(xiàn)聚合平臺調試廣告變現(xiàn)時,通過 A/B 測試尋找更合適的 Waterfall 配置等,尋找最佳的廣告觸發(fā)時機、廣告觀看獎勵、廣告播放形式等;
產(chǎn)品 A/B 測試:在游戲產(chǎn)品研發(fā)與運營過程中,測試美術設計,如按鈕用什么顏色、什么形狀,NPC 用什么造型、技能特效、抽卡表現(xiàn)等;測試新手引導,調整新手階段的節(jié)奏、難度和特定的關卡設計;測試界面布局,如商城界面布局,包括順序、大小、顏色和邊框等;測試產(chǎn)品定價,確定哪些定價的硬通貨或者禮包對玩家更有吸引力;測試變現(xiàn)入口,確定合適的變現(xiàn)入口,使得既可以獲得可觀的收益又不影響玩家體驗;測試玩法機制,找到更吸引玩家的玩法,如調整 PVE 通關獎勵領取方式能否提升玩家體驗深度,副本增加隨機隱藏 BOSS 能否吸引玩家再次挑戰(zhàn),PVP 不同匹配策略對玩家參與積極性有什么影響。
A/B測試的定義、操作方法是什么
「AB測試」是許多網(wǎng)站、尤其是電商網(wǎng)站用來快速測試改版、微調商業(yè)決策的方法之一。簡單來說,就是將欲測試的變因分別制作成A版和B版,利用工具將網(wǎng)站流量均分至兩個版本,最后選擇效果較好的版本。
操作方法:
Step 1: 制定測試目標
清楚定義測試想要達成的目標(如提升轉化率、瀏覽時間等)。制定目標的目的是為了使測試關注優(yōu)化的焦點,數(shù)據(jù)化指標便于檢視結果是否能達到效果。
Step 2: 建立目標假設,專項測試
盡可能在單個數(shù)值變量間比較。對于多數(shù)值變量不同差異大的,較難進行最大化判斷A/B測試。
Step 3: 測試并收集資料
制作不同版本后,將A、B版本上傳至網(wǎng)站,進行數(shù)據(jù)收集。
Step 4: 將表現(xiàn)較好的版本上線
通過反復此流程不斷優(yōu)化網(wǎng)站。測試上線后等待約1個月(或正常狀態(tài)的UV或PV量后)結束測試。網(wǎng)站流量越小,觀察時間越長。
如何用A/B測試做科學決策?
1、單變量測試
多個設計稿可能會存在明顯差異,一般不適合做A/B測試。因為變量過多,變量之間會存在較多干擾,很難通過 A/B測試來找出各變量對結果的影響程度。
2、用戶分組的隨機與固定
為用戶在每一個實驗中,隨機分配一個實驗分組,且用戶每次訪問時,都應該進入相同的實驗分組隨機性保證了每個實驗分組的用戶成分相似,分組固定保證了用戶體驗前后一致。
3、結合公司實際情況
A/B測試需要花費大量人力、物力,大公司用戶基礎龐大,進行A/B測試可以持續(xù)投入,投入的提升增長價值也很大。但很多中小型公司不一定具備執(zhí)行和分析能力,因此根據(jù)實際情況開展A/B測試尤為重要。
4、認知能力的提高
在互聯(lián)網(wǎng)環(huán)境下,除了工具、理論外,認知能力的提高會大大促進工作的順利開展。例如如果知道用戶行為是建立在感性的基礎上的,那么就能夠提出一種A/B測試,兩者的內容都是基于用戶的情感設計的,看哪一種最能夠打動用戶。如果沒有這個認知,可能就會設計出另一種不同的A/B方案,兩者的內容是側重于不同的產(chǎn)品功能,看用戶更看重哪一種功能。
A/B測試的三要素是什么
A/B測試三要素:變量、樣本、時間。
一、變量來自于假設,以及衡量試驗效果的指標
在“變量”這個維度下,主要關注:效果評價指標、試驗操作變量、控制(匹配)變量、場景篩選變量、分組隨機變量。
效果評價指標:用來衡量在產(chǎn)品或者運營上做出改動后的效果的變量,可以是單個變量,也可以多個。例:轉化率、點擊率、交易額等。這個評價指標要在AB測試開始前想好。
試驗操作變量:即組間差異的變量。例:A組用戶不發(fā)紅包,B組發(fā)放5元紅包,C組發(fā)放10元紅包,那么試驗變量就是紅包金額;一般情況下,試驗中的ABC組中有一組是作為參考基線,通常“基線組”是“不做操作”的,因為要區(qū)分“自然變化量”和“人為改變量”,基線組試驗前后發(fā)生的變化可以理解為“自然變化量”,而真正進行了干預的其他組別發(fā)生的變化量,要減去這個“自然變化量”后才能得到“人為改變量”。
控制(匹配)變量:會影響效果評價指標的其他變量,這類變量需要在基線組和操作組中進行匹配,否則試驗出的差異可能是由這些變量引起。例:是否新老客、會員等級、優(yōu)惠偏好等;
場景篩選變量:做A/B測試一般不是面向所有用戶,而是針對于特定的業(yè)務場景。例:優(yōu)化新客在android系統(tǒng)上的某注冊環(huán)節(jié)以提升注冊成功率,那么這個假設對應的業(yè)務場景就有兩個篩選條件:用戶狀態(tài)= '新客' & app操作系統(tǒng)= 'android',這些用來圈定業(yè)務場景的變量也可以稱為“場景定位變量”。
分組隨機變量:這類變量通常是具有隨機性的獨立變量,比如cookie_id、設備ID,或者其他具備隨機性和獨立性的數(shù)字串(例:試驗期間首次訪問應用的時間轉碼),通過判斷奇偶數(shù)來劃分試驗組。分組也可能是3組以上的,比如可以計算數(shù)字ID求3的余數(shù)。實際操作中,上面提到的控制(匹配)變量和分組隨機變量會一同參與到“隨機分組”的過程。
二、在“樣本維度”上通常關注業(yè)務篩選條件以及樣本量
通常業(yè)務場景可以從“人貨場”3個維度去限定:
人(用戶) :具有什么屬性的用戶才是本次試驗關注的目標? 例:屬性特征、行為特征、交易特征等;
貨(商品) :這里是指廣義上的商品,可以是實物,也可以是服務或者內容(例:視頻、文章等),對“貨”的圈定,可以是通過用戶行為來篩選,例:用戶在商詳頁停留了10秒以上但未購買的SKU,也可以是商品自身的屬性,例:所屬品類(欄目)、品牌等級、價格、差評率、優(yōu)惠度等;
場(渠道) :可以是業(yè)務的入口終端,例:PC\app\小程序、android\ios等,也可以是業(yè)務環(huán)節(jié)等,e.g.注冊環(huán)節(jié)、支付頁面等;
樣本量上首先是要保證能達到統(tǒng)計效力,以確保組間差異在統(tǒng)計意義上是顯著的(而不是隨機誤差造成)。
要計算樣本量大小,可以借助樣本量計算在線工具,根據(jù)統(tǒng)計公式來反推也可以。
此外,還要注意轉化率,用戶從進入產(chǎn)品一路到達試驗關注的環(huán)節(jié)可能要經(jīng)過層層“轉化”,試驗配置的時候入口的用戶量一般和試驗所需的樣本量是不一樣的。
三、時間主要關注“開始時間”和“結束時間”
開始時間:一般情況下,要避免重大產(chǎn)品運營事件,例:節(jié)假日、大促活動、產(chǎn)品發(fā)版日等。
持續(xù)時間:主要考慮在一定時間內收集足夠的樣本、用戶行為的穩(wěn)定性、不同用戶回流周期不一樣等。
A/B的使用誤區(qū)有哪些?
一、在僅當一部分人受到影響時,觀察所有人
示例:在測試搜索引擎相關性,進行 A/B 測試結果分析時,不是查看使用搜索引擎的用戶,而是查看整個總體。此時,達到統(tǒng)計顯著性需要更長時間。
二、在沒有任何業(yè)務直覺的情況下進行測試
不可以使用太多變量進行測試。例如,如果使用 α=5% 顯著性閾值并決定測試 20 個不同場景,則其中每個場景是正樣本的機會是偶然的。因此,業(yè)務直覺對于決定啟動哪個 A/B 測試至關重要。
三、對人口進行分段以達到統(tǒng)計顯著性
比較的片段越多,結果中出現(xiàn)錯誤的幾率就越大,因此在進行數(shù)據(jù)分割時需要非常小心。
四、查看幾個指標以達到統(tǒng)計顯著性
觀察足夠多的指標,最終會發(fā)現(xiàn)其中一個指標碰巧顯示了一個重要結果。所以,需要堅持測試設計的標準。
五、達到統(tǒng)計顯著性時停止測試
在停止測試之前,需要等待以達到計算出的樣本大小。使用 A/B 測試計算器計算測試所需的樣本大小。
六、在達到統(tǒng)計顯著性之前不要停止測試
從統(tǒng)計顯著性中不能得知什么時候停止測試,或者繼續(xù)測試。所以,不應該等待一個測試變得有意義,因為它可能永遠不會發(fā)生。如果你已經(jīng)達到了在測試前計算出的樣本量,這意味著本測試有足夠的統(tǒng)計能力得出結論。
七、將(1-p 值)當做 B 優(yōu)于 A 的概率
p 值為 2% 并不意味著 B 有 98% 的機會比 A 好。這個假設在數(shù)學上是錯誤的,因為它還取決于基準率。
八、認為觀察到的增量是特征帶來的增量
測試所觀察到的增量可以用來計算統(tǒng)計顯著性,但將觀察到的增量視為特征帶來的實際增量是錯誤的,這通常需要更多的用戶或會話。
九、當 A/B 測試結果違背你的直覺時,忽略它們
如果還沒有準備好用新的版本更新產(chǎn)品,那么啟動 A/B 測試是沒有意義的。直覺在選擇測試內容時至關重要,但它不應與 A/B 測試的結果相抵觸。
十、忘記檢查 A/B 測試系統(tǒng)是否可靠
A/B 測試系統(tǒng)必須經(jīng)過校準并正常工作。確保這種可靠性的一種方法是持續(xù)進行 A/A 測試,并檢查這兩種人群之間沒有顯著差異。