當我們真正要開始構建推薦系統的時候,我們首先要從四個方面來考慮。首先是算法。究竟該選擇什么樣的算法?無論是協同過濾還是其他算法,都要基于自己的業務產品。第二是數據。當確定了算法時,應該選擇哪種數據?如何處理數據?用什么樣方法采集數據?有句話叫做“機器學習=模型+數據”,即便擁有了一個很復雜的模型,在數據出現問題的情況下,也無法在推薦系統里面發揮很好的效果。第三,在線服務。當模型訓練完畢,數據準備充分之后,就會面對接收用戶請求返回推薦結果的事項,這其中包含兩個問題。其一,返回響應要足夠迅速。如果當一個用戶請求后的一秒鐘才返回推薦結果,用戶很可能因喪失耐心而流失。其二,如何讓推薦系統具有高可擴展性。當 DAU 從最初的十萬漲到一二百萬時,推薦系統還能像最初那樣很好地擋住大體量的請求嗎?這都是在線服務方面需要考慮和面臨的問題。第四,評估效果。做好上述三點,并不代表萬事大吉,一方面,我們要持續迭代推薦算法模型與結構,另一方面要去構建一套比較完整、系統的評價體系和評估方法,去分析推薦效果的現狀以及后續的發展。
神策推薦系統是一個完整的學習閉環。收集基礎數據,通過機器學習算法模型形成應用。結果實時驗證,從而指導數據源添加,算法反饋優化形成一個全過程、實時、自動、快速迭代的推薦閉環。
收起