專家團|宋星:媒體說能給我提供數據?到底能提供什么數據?
廣告主渴望獲得數據。
但是,獲得數據的路子似乎越來越窄,窄到當有媒體(或者第三方)跟我們說,我們能給你提供數據的時候,我們會覺得異常興奮。
興奮之余,要冷靜。這個時候,如同我們在工作中常常會有的好習慣——那就是,不要模模糊糊,而是要搞清楚,到底是什么情況——就會對我們非常有用。
這篇文章,我想快速跟大家聊聊,所謂的提供數據,到底有哪些方式,又能提供什么樣的數據。
全文大綱
1.媒體(或其他第三方)為企業“提供”數據的四種情況
2.第一種方式:Raw Data轉移的場景
3.第二種方式:ID匹配后轉移命中的個體級別屬性或部分屬性的場景
4.第三種方式:ID匹配后提供統計報告
5.第四種方式:橫向聯邦學習或者遷移聯邦學習方式
6.總結
媒體(或其他第三方)為企業“提供”數據的四種情況
上圖:為企業“提供”數據的四種情況。
圖片來自于“宋星大課堂:《數字化增長——以消費者為核心的數字營銷的 轉型、路徑與落地》”
請注意,就像我在上面的圖中所描述的,媒體(或其他第三方)為企業提供數據,是有各種方式的。你所認為的數據提供,和他們為你進行的“提供”,很可能壓根就有很大的區別。
這四種數據提供的方式,分別是:
第一種:直接把原始數據(Raw Data)拷貝給你,數據發生了物理上的轉移(復制、下載等)。所謂Raw Data,是指關于用戶的一條一條的行為、屬性、興趣等各種原始的記錄。
第二種:不直接拷貝給你Raw Data,但是跟你手中所擁有的用戶進行ID的匹配。匹配之后,把能夠匹配命中的ID項下的屬性數據(或部分屬性數據)轉移給你。這些數據都是按照ID分為一條一條的,所以是個體級別的數據。ID的匹配,在《個保法》出臺之前,大家常常以明文的方式進行匹配,而現在則幾乎都是通過加密ID再進行匹配的方式,甚至會用到更高安全級別的加密ID匹配,即采用隱私計算中的縱向聯邦學習的方式。
第三種:跟第二種類似,同樣要進行ID匹配,只不過匹配之后,不是把命中的ID項下的屬性數據給你,而是把所有命中的ID的屬性數據進行統計整理,然后把統計結果以報告的形式轉移給你。
第四種:是相對比較燒腦的一種方式,在這種方式下,數據不進行ID的匹配,而是數據提供方(暫且這么叫吧,因為壓根就沒有提供實際數據)和廣告主分別計算模型,并向各自返回模型和計算結果。這種方式常常采用聯邦遷移學習的高段位方法,也有采用廣告主和數據提供方選取同樣的屬性字段各自計算模型之后再優化模型的橫向聯邦學習的方法的。但總體是一種理論上ok,但實際操作起來十分“縹緲”的玩法。各種具體的聯邦學習的方式,大家如果感興趣,我會在我的“宋星大課堂:《數字化增長——以消費者為核心的數字營銷的 轉型、路徑與落地》”上介紹。
下面,我來講講各種方式下,常用的數據“提供”的場景和價值。
第一種方式:Raw Data轉移的場景
聽說用卡車運送硬盤,是目前大數據量數據轉移速度最快的方式,能到達大概每秒100個G。但這樣的數據轉移,基本上只可能發生在企業內部,比如阿里就用過這樣的方法轉移他們的數據。
不過,用卡車運,如果萬一路上出個車禍——不敢想,不敢想。
回到我們的場景中。無論是媒體,還是外部數據提供方,現在都不太可能給企業提供Raw Data。很多年前確實有這樣的生意,而且很普遍,有些人還因此發家買了很多套房。但隱私保護、個人信息保護以及數據安全的法律逐漸完善起來之后,這樣的場景基本上沒有了。
不過,只是基本上沒有。如同任何不合法的交易都存在黑市一樣,Raw Data數據轉移也有黑市。別問我這些黑市在哪兒,我也不知道,而且正經企業不會問我這個問題。
第二種方式:ID匹配后轉移命中的個體級別屬性或部分屬性的場景
當你看到我寫出了個體級別四個字,你可能會認為,這種情形應該也不存在了——沒有什么媒體還愿意給廣告主個體級別的數據了。但事實上,這種數據轉移仍然是有場景的。
電商平臺的會員通,會跟廣告主的會員,在進行ID匹配(通常是用加密的電話號碼)之后,提供給廣告主該ID的部分與會員權益等相關的數據,這些數據是個體級別的。
微信生態,微信也會在用戶授權的情形下,利用OpenID或者UnionID,經由API,給廣告主提供個體級別用戶的部分行為或屬性數據。
所以,不像第一種方式,第二種方式仍然是常見的數據提供的方式。
但是,這種方式顯然有一個很值得注意的點,那就是,提供的個體級別的屬性數據能包含什么,是由媒體圈定范圍,并由用戶實際授權同意之后,才可能發生的。
所以,通常這些數據的類型會很有限。
第三種方式:ID匹配后提供統計報告
這也是一種常見的場景,而且基本上符合法律所規定的個人信息保護的合規要求。
例如,廣告主將自己CDP中圈選的人群的ID加密后(或縱向聯邦學習的方式),與媒體的DMP中用戶的ID進行匹配。匹配后,媒體把這部分人的屬性進行統計整理,以所謂的“人群畫像”的方式提供給廣告主。
這種方式,基本上用于做人群畫像或者人群洞察了。
雖然對于精細化運營每一個用戶或者每一個消費者并無直接作用,但是在幫助形成營銷策略上,是很有價值的。
第四種方式:橫向聯邦學習或者遷移聯邦學習方式
在深度利用企業的CDP方面,需要用到此種方式。
但是,大部分企業可能都難以擁有這樣的能力。
一個簡單的應用,以汽車行業為例。汽車行業的主機廠,擁有很多用戶在私域觸點上的各種行為數據,這些數據例如“看了某個車型介紹的次數”或者“查看汽車金融的次數”或是“在某類車型頁面上的停留時間”。而媒體也有完全一樣類型的這樣的數據(比如騰訊汽車或者懂車帝也有類似的數據)。然后,二者各自基于這些數據類型和一個通用模型進行計算,并各自得出一個比通用模型更優化的模型,該模型能判斷這些數據的值具體是什么情況時,用戶就會表現出較為明確的愿意“留資(就是有購車意向)”的傾向。之后,二者將各自的模型互相傳遞,再基于兩個優化模型得出一個更新的通用模型,隨之再把這個新的通用模型給二者,并基于更多的數據,再做計算,各自再得出一個更更優化的模型……
這個過程循環n次,直到得到一個滿意的通用模型,兩邊都能拿著用于預測各自的用戶是否有購車意向。——這就是橫向聯邦學習。
上圖:橫向聯邦學習的示意過程。
圖片來自于“宋星大課堂:《數字化增長——以消費者為核心的數字營銷的 轉型、路徑與落地》”
聯邦遷移學習則更加“牛”,不過比較復雜,就大致說一下。簡單說,就是媒體和廣告主,不僅雙方ID不允許做任何匹配,就連用戶的屬性數據類型都不一樣,比如媒體只有“看了某個車型介紹的次數”或者“查看汽車金融的次數”的數據類型,而車企只有“在某類車型頁面上的停留時間”的數據類型。然后二者還是要得到一個更優化的預測用戶是否可能留資的模型。
所以,如同我講的車企的例子,第四種方式常常用于預測和人工智能判斷。通常無論是廣告主還是媒體,都需要相當大體量且類型豐富的數據。
因此,這種方式,聽起來就已經很“玄學”,落地實現起來就更加困難了。也不是沒有企業這么做,但是,真的很少。
總結
現在,你再看看你的媒體跟你承諾的,要提供給你數據,是什么情況?
大部分,我相信,都是第二種和第三種。尤其是第三種,特別多。
你所期待的,全量的Raw Data的提供(也就是第一種),在今天恐怕越來越難以實現。
本文來自微信公眾號“宋星的數字觀”(ID:chinawebanalytics),作者:宋星,36氪經授權發布。