无码网站在线免费观看_午夜视频刺激性视频场所_国产极品99热在线播放69_97高清国语自产拍

讓商業(yè)變得更智能

以今日頭條為例,詳述數(shù)據(jù)思維驅(qū)動產(chǎn)品設計的方法論
APP開發(fā)設計

本文源于今日頭條算法工程師曹歡歡的分享,筆者結(jié)合自身理解和思考加以總結(jié)梳理,力求整理出每個產(chǎn)品經(jīng)理都可以在實操中運用的科學設計產(chǎn)品方法論。

今日頭條用了短短5年時間,成為移動端新聞媒體的獨角獸,2016年末,完成10億美金D輪融資,估值近110億美元,成功擠入互聯(lián)網(wǎng)第二梯隊。如一句老話所說,世上沒有平白無故的成功,當了解了今日頭條如何打磨產(chǎn)品功能和交互設計后,筆者發(fā)現(xiàn)其成功是必然的,也是有跡可循的,這一切都源于自上而下的數(shù)據(jù)化思維。

本文源于今日頭條算法工程師曹歡歡的分享,筆者結(jié)合自身理解和思考加以總結(jié)梳理,力求整理出每個產(chǎn)品經(jīng)理都可以在實操中運用的科學設計產(chǎn)品方法論。

本文共分六個模塊:

一、今日頭條前世今生–介紹今日頭條近期數(shù)據(jù),今日頭條的源起

二、數(shù)據(jù)思維做產(chǎn)品–CEO張一鳴如何解讀數(shù)據(jù)思維,詳述三個方法論

三、數(shù)據(jù)思維指導算法演化–頭條推薦算法概述

四、今日頭條的A/B測試系統(tǒng)–超級強大的科學實驗系統(tǒng)

五、需求從何而來?數(shù)據(jù)收集到何種程度?–科學嚴謹?shù)膶嶒瀾B(tài)度處理需求,收集全量用戶行為

六、如何低成本完成有效A/B測試–A/B測試的原則,注意事項、實踐方法和案例分析

一、今日頭條前世今生

介紹方法論之前,我們來看看今日頭條究竟有何成功之處。今日頭條是一個個性化信息推薦平臺,基于大數(shù)據(jù)和人工智能,做到信息推薦的千人千面,2017年6月數(shù)據(jù)顯示,今日頭條日活用戶超7700萬,月活用戶近1.8億,日均使用時長超76分鐘,日均啟動次數(shù)超13次,如此活躍的數(shù)據(jù),出現(xiàn)在一個新聞信息類應用實屬罕見,今日頭條2017年營收達到150億,其吸金能力也是讓人瞠目結(jié)舌。

接下來,筆者帶著大家來一起探秘今日頭條的成功之道——數(shù)據(jù)思維打磨產(chǎn)品。

今日頭條從起名字開始就運用了數(shù)據(jù)思維,創(chuàng)始團隊沒有頭腦風暴,沒有投票,沒有老大拍板兒,而是采用科學實驗的方式,通過數(shù)據(jù)觀測確定了頭條的名稱。實驗方法如下所屬:

  • 首先,將appstore上各類免費榜單的前10名整理出來,然后根據(jù)名字歸類(朗朗上口白話類,內(nèi)涵情懷類,模擬特殊聲音類,公司名+用途類等),分析那各類數(shù)量占比。分析結(jié)論是朗朗上口的大白話效果最好。
  • 其次,分渠道A/B測試,確定先驗效果類似的發(fā)布渠道,分別投放,界面功能logo完全一樣,統(tǒng)計各個渠道的用戶下載和活躍等核心數(shù)據(jù)指標,《今日頭條》效果最好。

二、數(shù)據(jù)思維做產(chǎn)品

今日頭條CEO張一鳴所定義的數(shù)據(jù)思維包含三個維度:

  1. 收集數(shù)據(jù)。無偏,全面,客觀。
  2. 做出決策。根據(jù)數(shù)據(jù)做決策,拋棄主觀經(jīng)驗,情感因素,做到客觀解釋。
  3. 高效執(zhí)行。3個方法論(歸納總結(jié),A/B測試,雙盲交叉驗證)+高效A/B測試系統(tǒng)

1、歸納總結(jié)–最樸素的數(shù)據(jù)思維工具

按照特定維度對目標排序,分析top對象在特定屬性上的共同點。

2、A/B測試——科學產(chǎn)品觀的關鍵

(1)A/B測試定義

A/B測試是一種把實驗對象隨機分組,把一個或多個測試組的表現(xiàn)與對照相比較,進行測試的方式。

(2)A/B測試目的

通過科學實驗設計,在保證采樣樣本無偏,有代表性的前提下,流量分割與小流量測試等方式,獲得具有代表性的實驗結(jié)論,并確信該結(jié)論在推廣到全部流量可信。

注意事項:測試組和對照組不要設計多個變量同時測,一次實驗只設置唯一變量,同時實驗組內(nèi)分小組,盡量保證組間數(shù)據(jù)隨機分布,便于分析數(shù)據(jù)波動影響。測試前需要定義核心觀測指標,通過指標數(shù)值變化,確定實驗結(jié)果的好壞。

3、雙盲交叉驗證——確保信息審核高效快捷

交叉驗證用得最多的場景是涉及到人工運營的場景,在評估時需要人工介入為文章分類,以保證推薦的準確,那么評估和審核都需要依賴人,人員能力的差異和流動性導致評估和審核標準會變來變?nèi)?,這就需要機器可以監(jiān)控人的行為,每個評估的運營人員有自己一個任務隊列,把一個要評估的樣本至少放到兩個以上的評估隊列里面去,就意味著一個樣本最少有兩個人看過,如果他們意見不一致,我們有一個資深的仲裁小組進行仲裁。

三、數(shù)據(jù)思維指導算法演化

推薦算法是今日頭條產(chǎn)品的靈魂。頭條推薦算法是一系列算法的策略的組合,每一個子系統(tǒng)的改進都會對系統(tǒng)整體造成影響。

  • 推薦排序模型:數(shù)百億特征,涵蓋你能想到的一切可以幫助做判斷的信息。
  • 推薦召回模型:若干策略獨立的負責判斷,哪些內(nèi)容有資格進入排序算法。

一個排序模型,搭配多個召回模型,通過召回模型做初篩,然后反饋給排序模型,節(jié)省99%的處理資源,推薦更快捷。

對推薦效果可能產(chǎn)生影響的因素:候選內(nèi)容集合的變化、召回模塊的改進和增加、推薦特征的增加、推薦系統(tǒng)架構(gòu)的改進、規(guī)則策略的改變。

四、今日頭條的A/B測試系統(tǒng)

今日頭條同時在線測試的實驗有很多,每月多達有上百個之多,如何科學的分配實驗流量,減少溝通,降低實驗成本,做到實驗結(jié)果可視化展示是必須思考的,于是出現(xiàn)了今日頭條的A/B測試系統(tǒng)。

  • 系統(tǒng)實驗創(chuàng)建屬性:實驗名稱,實驗時間,實驗類型(共享or獨占),過濾流量條件,實驗組ID
  • 實驗動作概述:動作收集,日志處理,分布式統(tǒng)計,寫入數(shù)據(jù)庫,數(shù)據(jù)可視化。
  • 獨占實驗。是指實驗模型比較復雜,任何其他因素改變可能影響到實驗結(jié)果準確性,所以用戶不可以與其他實驗共享,申請完成后,系統(tǒng)自動隨機從流量桶中分配出流量用于實驗,留出一半未調(diào)整用戶,作為對照數(shù)據(jù)組,將實驗數(shù)據(jù)桶分開,觀察數(shù)據(jù)波動性,防止測試結(jié)果有偏。

共享實驗。是指實驗模型只測試某類特定屬性用戶,可以與其他非相關屬性的實驗共用實驗對象,流量桶分配邏輯與獨占實驗類似,但是當其用戶可以分配到其他實驗中,復用部分用戶。如下圖所示:

基于這套系統(tǒng),基于數(shù)據(jù)分析協(xié)助產(chǎn)品功能迭代(經(jīng)歷幾十個版本迭代),數(shù)百個有效改進上線,人均有效點擊提升40%,人均停留時長提升50%。

五、需求從何而來?數(shù)據(jù)收集到何種程度?

1、需求從何而來

互聯(lián)網(wǎng)產(chǎn)品的需求一般來源于用戶反饋或焦點小組需求收集,是一種信息的歸納總結(jié),但是這部分數(shù)據(jù)是有偏信息,不可以簡單粗暴的將用戶反饋的需求作為直接需求,所謂會哭的小孩有奶吃,很多時候,用得很好的用戶不反饋,用得不好的才反饋。如果你改變了,是不是傷害了那些不反饋的用戶呢?

其實你是不知道的,所以這些需求我們并不一定要做,只是先做一個候選實驗的需求池。如果一個需求兩三周持續(xù)在反饋,這個需求可能是一個強需求,那么做好了小渠道測試,用數(shù)據(jù)說話。

2、WAP頁面VS原生功能

(1)原生功能

  • 優(yōu)勢:響應速度,復雜交互流暢,異常狀態(tài)顯示,緩存效果等。
  • 劣勢:更新需要發(fā)版,出現(xiàn)問題無法快速調(diào)整。
  • 發(fā)布方式:先在小渠道發(fā)版測試,與老版本對比,如果一上來留存率降低5%,那這個改動肯定有問題。如果說波動在正負1之間,這個東西可能有用,可以大渠道發(fā)版A/B測試。今日頭條可以做到從應用市場提交同一個版本,但是用戶下載之后,通過服務端的遠程控制,讓每個人看到的界面是不一樣的,確認沒有問題后,將改進合并到主開發(fā)分支。

(2)WAP頁面

  • 優(yōu)勢:隨改隨上,反應迅速
  • 劣勢:一些交互和問題場景沒有原生體驗好
  • 發(fā)布方式:利用A/B測試系統(tǒng),隨測隨發(fā),出現(xiàn)問題隨時調(diào)整下架。

3、“全量”用戶行為數(shù)據(jù)收集

  • 根據(jù)人的特征(職業(yè),年齡,性別,興趣愛好,機型,短期點擊行為,搜索行為,收藏行為)
  • 根據(jù)環(huán)境特征(場景,時間-飯后或周末,網(wǎng)絡環(huán)境-wifi或移動流量)
  • 根據(jù)文章特征(文章時效性,文章熱度,相似文章,點擊和不點擊是有偏的,停留時間,閱讀的細節(jié)行為收集)

閱讀細節(jié)行為收集,今日頭條已經(jīng)做到了近乎于眼動測試的程度,通過數(shù)據(jù)可以分析用戶閱讀文章的滑屏速度,閱讀習慣,閱讀速度,什么地方快速滑過,什么地方仔細閱讀,最終,以量化的形式反饋給內(nèi)容創(chuàng)作者,幫助其持續(xù)優(yōu)化內(nèi)容編輯。

4、創(chuàng)業(yè)初期產(chǎn)品的核心競爭力模型

產(chǎn)品核心競爭力=拉新能力*留存能力*變現(xiàn)能力。每項能力比對手強20%,整體差距超過70%,數(shù)據(jù)思維可以幫助團隊把每一項能力發(fā)揮到極致。

六、如何低成本完成有效A/B測試

初創(chuàng)團隊可能沒有太多資源開發(fā)多個版本進行多渠道測試,一些大公司也不會如同今日頭條專門設計一個A/B測試系統(tǒng),那么如何在沒有很多預算的情況下完成簡易有效的A/B測試呢?首先,要理解A/B測試的原則,其次,一定要躲過一些坑,最后,就是根據(jù)實際情況確定測試方案(開發(fā)參與實現(xiàn)方案討論)。

1、A/B測試原則

(1)多方案同時段并行測試;

(2)測試方案只有一個唯一變量;

(3)用戶行為數(shù)據(jù)收集;

(4)定義核心指標。

2、A/B測試注意事項

(1)一定要是單變量。如果兩個版本,每個版本有2處不同,最終分析的時候很難確定是哪個優(yōu)化導致的指標變化。

(2)統(tǒng)計置信度。受到樣本量影響(樣本太少,樣本代表性);置信水平(A方案49%,B方案51%,可能數(shù)據(jù)分流導致的偏差所致,分流有偏造成的影響)

(3)設置對比觀察數(shù)據(jù)組,即沒有任何調(diào)整的情況各項數(shù)據(jù)指標如何,用于實驗效果對比分析。

3、實踐方法

(1)從測試頁面類型分類

  • 原生功能A/B測試。選擇渠道流量類似的小渠道進行小渠道發(fā)版測試,確定方案后,在主流渠道發(fā)版A/B測試。
  • WAP/H5頁面A/B測試。通過后端或前端控制,進行A/B測試,具體測試流程見下文:A/B測試實踐全總結(jié)
  • 營銷活動的A/B測試。通過短信、站內(nèi)消息或公眾號喚醒用戶,可以進行用戶分桶后批量通知,觀察后續(xù)用戶行為操作?;蚴峭ㄟ^活動banner引導入活動詳情頁,通過活動頁引導的A/B測試與WAP頁面類似。

(2)從測試時間點分類

  • 實時分流測試。實時分流測試需要開發(fā)參與,進行服務器分流或數(shù)據(jù)庫分流測試,并且進行數(shù)據(jù)埋點,用于用戶行為分析。
  • 定性后向分流測試。從歷史數(shù)據(jù)中篩選出測試用戶組和對比觀測用戶組,數(shù)據(jù)選擇需要足夠樣本量,否則測試結(jié)果的置信度會很低,這種后向通知模式比較容易執(zhí)行,但是并不適用所有場景,常用語召回用戶,活動通知使用,通過短信和微信服務號/訂閱好通知消息進行喚醒。

樣本量足夠的情況下,可以考慮實驗組數(shù)據(jù)內(nèi)部再做分組,如同今日頭條系統(tǒng)實現(xiàn)的部分,觀察用戶行為波動性,保證測試結(jié)果置信度更高。

4、案例實操:P2P平臺用戶投資引導A/B測試

我們以P2P平臺為例,假設P2P平臺月新增1萬注冊用戶,9000用戶注冊未投資,以往通過短信告知用戶下發(fā)投資卷召回用戶,效果非常不明顯,現(xiàn)在將9000用戶隨機分成3組,每組3000用戶,分別是1組(對比觀測組),2組(紅包召回組),3組(話費召回組),短信文案知識紅包和話費區(qū)別。觀察三組用戶在短信發(fā)出后一天內(nèi)的行為變化,核心指標定為登錄APP行為。

紅包和話費充值初期數(shù)量不會很大,可以考慮設計成手動下發(fā),如果用戶投資則固定時間充值,無需相應開發(fā)。

通過對比用戶登錄和投資行為,可以很明顯的看出何種召回方式效果更好,因為是小數(shù)據(jù)樣本檢測,充值量初期不會太大,可以節(jié)省話費充值對接開發(fā),測試效果出來,優(yōu)化完善,確認召回方案后再進行開發(fā)才相對高效,因為很可能新召回策略并不比原有策略有效。

希望本文對產(chǎn)品經(jīng)理們有所幫助,可以為您的產(chǎn)品設計提供科學的方法,也希望在留言區(qū)看到您的留言,我們一起交流小團隊如何使用A/B測試,科學設計產(chǎn)品。

來源:pmcaff 互聯(lián)網(wǎng)產(chǎn)品研究中心

APP開發(fā)設計