本文源于今日頭條算法工程師曹歡歡的分享,筆者結(jié)合自身理解和思考加以總結(jié)梳理,力求整理出每個產(chǎn)品經(jīng)理都可以在實操中運用的科學設計產(chǎn)品方法論。
今日頭條用了短短5年時間,成為移動端新聞媒體的獨角獸,2016年末,完成10億美金D輪融資,估值近110億美元,成功擠入互聯(lián)網(wǎng)第二梯隊。如一句老話所說,世上沒有平白無故的成功,當了解了今日頭條如何打磨產(chǎn)品功能和交互設計后,筆者發(fā)現(xiàn)其成功是必然的,也是有跡可循的,這一切都源于自上而下的數(shù)據(jù)化思維。
本文源于今日頭條算法工程師曹歡歡的分享,筆者結(jié)合自身理解和思考加以總結(jié)梳理,力求整理出每個產(chǎn)品經(jīng)理都可以在實操中運用的科學設計產(chǎn)品方法論。
本文共分六個模塊:
一、今日頭條前世今生–介紹今日頭條近期數(shù)據(jù),今日頭條的源起
二、數(shù)據(jù)思維做產(chǎn)品–CEO張一鳴如何解讀數(shù)據(jù)思維,詳述三個方法論
三、數(shù)據(jù)思維指導算法演化–頭條推薦算法概述
四、今日頭條的A/B測試系統(tǒng)–超級強大的科學實驗系統(tǒng)
五、需求從何而來?數(shù)據(jù)收集到何種程度?–科學嚴謹?shù)膶嶒瀾B(tài)度處理需求,收集全量用戶行為
六、如何低成本完成有效A/B測試–A/B測試的原則,注意事項、實踐方法和案例分析
介紹方法論之前,我們來看看今日頭條究竟有何成功之處。今日頭條是一個個性化信息推薦平臺,基于大數(shù)據(jù)和人工智能,做到信息推薦的千人千面,2017年6月數(shù)據(jù)顯示,今日頭條日活用戶超7700萬,月活用戶近1.8億,日均使用時長超76分鐘,日均啟動次數(shù)超13次,如此活躍的數(shù)據(jù),出現(xiàn)在一個新聞信息類應用實屬罕見,今日頭條2017年營收達到150億,其吸金能力也是讓人瞠目結(jié)舌。
接下來,筆者帶著大家來一起探秘今日頭條的成功之道——數(shù)據(jù)思維打磨產(chǎn)品。
今日頭條從起名字開始就運用了數(shù)據(jù)思維,創(chuàng)始團隊沒有頭腦風暴,沒有投票,沒有老大拍板兒,而是采用科學實驗的方式,通過數(shù)據(jù)觀測確定了頭條的名稱。實驗方法如下所屬:
今日頭條CEO張一鳴所定義的數(shù)據(jù)思維包含三個維度:
按照特定維度對目標排序,分析top對象在特定屬性上的共同點。
(1)A/B測試定義
A/B測試是一種把實驗對象隨機分組,把一個或多個測試組的表現(xiàn)與對照相比較,進行測試的方式。
(2)A/B測試目的
通過科學實驗設計,在保證采樣樣本無偏,有代表性的前提下,流量分割與小流量測試等方式,獲得具有代表性的實驗結(jié)論,并確信該結(jié)論在推廣到全部流量可信。
注意事項:測試組和對照組不要設計多個變量同時測,一次實驗只設置唯一變量,同時實驗組內(nèi)分小組,盡量保證組間數(shù)據(jù)隨機分布,便于分析數(shù)據(jù)波動影響。測試前需要定義核心觀測指標,通過指標數(shù)值變化,確定實驗結(jié)果的好壞。
交叉驗證用得最多的場景是涉及到人工運營的場景,在評估時需要人工介入為文章分類,以保證推薦的準確,那么評估和審核都需要依賴人,人員能力的差異和流動性導致評估和審核標準會變來變?nèi)?,這就需要機器可以監(jiān)控人的行為,每個評估的運營人員有自己一個任務隊列,把一個要評估的樣本至少放到兩個以上的評估隊列里面去,就意味著一個樣本最少有兩個人看過,如果他們意見不一致,我們有一個資深的仲裁小組進行仲裁。
推薦算法是今日頭條產(chǎn)品的靈魂。頭條推薦算法是一系列算法的策略的組合,每一個子系統(tǒng)的改進都會對系統(tǒng)整體造成影響。
一個排序模型,搭配多個召回模型,通過召回模型做初篩,然后反饋給排序模型,節(jié)省99%的處理資源,推薦更快捷。
對推薦效果可能產(chǎn)生影響的因素:候選內(nèi)容集合的變化、召回模塊的改進和增加、推薦特征的增加、推薦系統(tǒng)架構(gòu)的改進、規(guī)則策略的改變。
今日頭條同時在線測試的實驗有很多,每月多達有上百個之多,如何科學的分配實驗流量,減少溝通,降低實驗成本,做到實驗結(jié)果可視化展示是必須思考的,于是出現(xiàn)了今日頭條的A/B測試系統(tǒng)。
共享實驗。是指實驗模型只測試某類特定屬性用戶,可以與其他非相關屬性的實驗共用實驗對象,流量桶分配邏輯與獨占實驗類似,但是當其用戶可以分配到其他實驗中,復用部分用戶。如下圖所示:
基于這套系統(tǒng),基于數(shù)據(jù)分析協(xié)助產(chǎn)品功能迭代(經(jīng)歷幾十個版本迭代),數(shù)百個有效改進上線,人均有效點擊提升40%,人均停留時長提升50%。
互聯(lián)網(wǎng)產(chǎn)品的需求一般來源于用戶反饋或焦點小組需求收集,是一種信息的歸納總結(jié),但是這部分數(shù)據(jù)是有偏信息,不可以簡單粗暴的將用戶反饋的需求作為直接需求,所謂會哭的小孩有奶吃,很多時候,用得很好的用戶不反饋,用得不好的才反饋。如果你改變了,是不是傷害了那些不反饋的用戶呢?
其實你是不知道的,所以這些需求我們并不一定要做,只是先做一個候選實驗的需求池。如果一個需求兩三周持續(xù)在反饋,這個需求可能是一個強需求,那么做好了小渠道測試,用數(shù)據(jù)說話。
(1)原生功能
(2)WAP頁面
閱讀細節(jié)行為收集,今日頭條已經(jīng)做到了近乎于眼動測試的程度,通過數(shù)據(jù)可以分析用戶閱讀文章的滑屏速度,閱讀習慣,閱讀速度,什么地方快速滑過,什么地方仔細閱讀,最終,以量化的形式反饋給內(nèi)容創(chuàng)作者,幫助其持續(xù)優(yōu)化內(nèi)容編輯。
產(chǎn)品核心競爭力=拉新能力*留存能力*變現(xiàn)能力。每項能力比對手強20%,整體差距超過70%,數(shù)據(jù)思維可以幫助團隊把每一項能力發(fā)揮到極致。
初創(chuàng)團隊可能沒有太多資源開發(fā)多個版本進行多渠道測試,一些大公司也不會如同今日頭條專門設計一個A/B測試系統(tǒng),那么如何在沒有很多預算的情況下完成簡易有效的A/B測試呢?首先,要理解A/B測試的原則,其次,一定要躲過一些坑,最后,就是根據(jù)實際情況確定測試方案(開發(fā)參與實現(xiàn)方案討論)。
(1)多方案同時段并行測試;
(2)測試方案只有一個唯一變量;
(3)用戶行為數(shù)據(jù)收集;
(4)定義核心指標。
(1)一定要是單變量。如果兩個版本,每個版本有2處不同,最終分析的時候很難確定是哪個優(yōu)化導致的指標變化。
(2)統(tǒng)計置信度。受到樣本量影響(樣本太少,樣本代表性);置信水平(A方案49%,B方案51%,可能數(shù)據(jù)分流導致的偏差所致,分流有偏造成的影響)
(3)設置對比觀察數(shù)據(jù)組,即沒有任何調(diào)整的情況各項數(shù)據(jù)指標如何,用于實驗效果對比分析。
(1)從測試頁面類型分類
(2)從測試時間點分類
樣本量足夠的情況下,可以考慮實驗組數(shù)據(jù)內(nèi)部再做分組,如同今日頭條系統(tǒng)實現(xiàn)的部分,觀察用戶行為波動性,保證測試結(jié)果置信度更高。
我們以P2P平臺為例,假設P2P平臺月新增1萬注冊用戶,9000用戶注冊未投資,以往通過短信告知用戶下發(fā)投資卷召回用戶,效果非常不明顯,現(xiàn)在將9000用戶隨機分成3組,每組3000用戶,分別是1組(對比觀測組),2組(紅包召回組),3組(話費召回組),短信文案知識紅包和話費區(qū)別。觀察三組用戶在短信發(fā)出后一天內(nèi)的行為變化,核心指標定為登錄APP行為。
紅包和話費充值初期數(shù)量不會很大,可以考慮設計成手動下發(fā),如果用戶投資則固定時間充值,無需相應開發(fā)。
通過對比用戶登錄和投資行為,可以很明顯的看出何種召回方式效果更好,因為是小數(shù)據(jù)樣本檢測,充值量初期不會太大,可以節(jié)省話費充值對接開發(fā),測試效果出來,優(yōu)化完善,確認召回方案后再進行開發(fā)才相對高效,因為很可能新召回策略并不比原有策略有效。
希望本文對產(chǎn)品經(jīng)理們有所幫助,可以為您的產(chǎn)品設計提供科學的方法,也希望在留言區(qū)看到您的留言,我們一起交流小團隊如何使用A/B測試,科學設計產(chǎn)品。
來源:pmcaff 互聯(lián)網(wǎng)產(chǎn)品研究中心