作為新時代互聯網營銷的關鍵部分,人群畫像引起了諸多興趣,近年頗為風靡。幾乎所有的互聯網廣告供應商都不約而同的強調,他們有足夠精確的人群畫像數據,確保能夠找到廣告主真正的受眾。但是事情果真如此嗎?人群畫像是否是一勞永逸的解決方案?本文嘗試解答這些問題。

作者:宋星(網站分析在中國創始人,WAW中國創始人)2015-08-02 (已獲原作者同意轉載)

如果拋開所有灰色的因素,廣告追求的唯一效果應該就是找到對的人。作為廣告三要素(廣告位置、創意、受眾)中唯一不能事先確定的要素,人(即受眾)變幻莫測,讓無數廣告人茶飯不香,徹夜難眠。

我們用盡一切手段找到對的人,例如,電視廣告的露出非常講究不同頻道、節目和時點對於人群的覆蓋;樓宇廣告與樓盤和地理位置相關聯,以便釐清不同人群的購買力;雜誌上的廣告則跟雜誌對應的行業主題緊緊相連。這是不需要解釋的邏輯。但是到了互聯網上,這個邏輯面臨挑戰,因為互聯網這個虛擬的世界與現實世界相比,實在是大大不同。

這個不同在於,與傳統世界相比,互聯網是一個更能夠「監視」每一個人的地方。每一個人,他在互聯網(無論是桌面還是移動端)上的很多痕跡都會被各種或明或暗的機構或個人記錄存儲,然後被用於各種其他的目的。這些痕跡是什麼?後面會仔細介紹。

這些目的中最重要的之一是用於廣告,既然我們能夠監視個體,理論上我們就能知道他(或她)是誰,然後判斷他是不是「對的人」,如果是,我們就會在他下一次出現在網絡世界中的時候,讓我們的廣告出現在他眼前,或是直接「騷擾」他。這種方法的效果比傳統廣告投放的效果肯定會好太多。

因此,互聯網上的廣告投放可以脫離於廣告載體本身,而直接針對每一個具體的人。傳統廣告,是先考慮廣告載體(電視頻道或節目、雜誌內容、地址或樓盤等)來反推受眾大概是什麼類型的人,然後放一個大家看到的都一模一樣的廣告(而且載體的物理條件也已經限制了,不可能讓每個人看到的廣告不一樣);互聯網廣告則完全可以通過你在互聯網上的多種痕跡知道你是什麼樣的人,廣告的內容和創意可以根據你的具體情況來進行安排,而不需要根據網站上的內容(或在手機APP的類型)來放一個所有來這個網站的人都看到的一模一樣的廣告。

這個邏輯簡單而誘人,而且已經幾乎是徹底的改變了互聯網廣告的版圖。如果你足夠細心,你會發現現在互聯網上很多廣告跟你在網上的某些行為發生了關聯,例如你瀏覽了某寶商品之後,會發現很多頁面都有類似商品的廣告出現了。幾乎所有的傳統互聯網廣告公司都將自己擁有準確的人群定向能力作為賣點,以強化人們對其效果的信心。基於互聯網網民個人信息識別進行針對性廣告投放的專門公司也突然激增,到2015年有近百家出現。專門「監視」並且描繪互聯網每個個人的第三方公司也開始出現,2015年也超過十家,且增速迅猛。運營商、互聯網巨頭也開始對外界提供部分的他們自有的用戶數據。而對互聯網世界中不同人群進行類型識別和描繪的工作,也有了更簡潔的說法——人群畫像,或是用戶畫像。

Snip20160621_31

人群畫像突然成為互聯網營銷不可或缺的金字招牌。這個金字招牌的究竟是什麼?與之相關的說法,哪些可靠,哪些不靠譜?我希望在一系列文章中把這些問題弄清楚。

人群畫像的經典構成要素

人群畫像從字面理解,是把人群的情況用數據的方式描繪出來。人群畫像和個體畫像並不完全相同。千萬不要混為一談。

給個體畫像,指描述不同個人的過程。在廣告行業中,描述個體所用的方法被稱為「打標籤」,和電子商務中給商品打標籤很類似——商品上的標籤包含商品唯一的身份識別SKU,以及名稱、價格、產地、生產日期、保質期、原材料等信息。而給個人打標籤,也是把這個人的信息以標準化的方式組織存儲起來,並附著在這個人的唯一身份標識上。這裡多說一句,互聯網上對於人的唯一身份標記手段包括cookie(主要是PC端),或者是IMEIIDFA等(主要是移動端)。如果一個人在互聯網世界中沒有一個唯一身份標識,那麼對這個人的畫像就無從談起,因為誰知道誰是誰?所以,人群畫像的最基本前提是對人的唯一身份的標記。

人群畫像與個體畫像有強關聯,人群畫像必須基於對個體的畫像,但卻高於個體的畫像,體現為人群作為一個集群的整體特徵。人群是個體的集合,對什麼人群進行畫像是根據廣告營銷的目標受眾(target audience)或者細分目標受眾(audience segmentation)為對象進行的。例如,iPod生產商的人群畫像顯然是針對聽音樂感興趣的人,NB運動鞋廠則想對運動時尚人群畫像。

人群畫像與個體畫像相似之處在於,兩者都是對人的描述。但人群的描述需要歸納人群所呈現出的共性,而非多樣性特徵。可是,就像沒有任何兩個人是一模一樣的,對個體的畫像也不可能一樣,當每個不同的人集合成群體,就需要用一定的方法尋找他們的共性,並構建這些共性與營銷策略上的邏輯相關性。

人群畫像的經典構成要素,也就由此產生。它包括三個非常關鍵的組成部分:個體的標識,個體的畫像(即打標籤)以及對人群共性的抽象。第一個是一切的前提,第二個是基礎,第三個是對前者的組合、抽象、分析和加以利用。

Snip20160621_32

下面及後續的文章我們將逐一詳細看看這三個組成部分究竟有何玄機。

唯一身份標識

在互聯網世界中匿名「旅行」是一個人的基本權利(至少部分是),這給追蹤一個人的行動帶來了麻煩。既然不能實名,那麼我們至少要給他們起一個名字。

這個名字跟真實世界中的名字很不同。首先,這個名字是一串沒有什麼意義的隨機字符,其次,這個名字的存在可能連當事人自己都不知道。

比如說,你去了一個網站,管你註冊登錄與否,這個網站都會給你安一個名字,當你下次來的時候,哪怕你繼續不登錄,這個網站也會知道你來了。這個東西太普遍了,以至於現在幾乎所有的網站都使用這個東西,它的名字叫cookie

即使是同一個人,每個網站也都給這個人不同的cookie命名,這很容易理解,因為每個網站有自己的命名規則。所以,唯一身份標識是相對的,對於同一個網站,不同的人,應該有唯一的識別,但這個人去了別的網站,理論上就是別人的事情了,這個人會被別的網站起上別的cookie命名,而且是其他網站根本無從知曉的。這就引起了一些問題,我們下面不久就會講。

隨著移動端的發展,唯一身份標識用cookie就不好用了,因為移動端上APP用量巨大,而cookie必須隨著網站存在,APP沒有這東西。不過,沒有cookie沒關係,移動端有別的東西來標識人。在移動端,唯一身份標識最常用的是手機的IMEI號碼,或者IDFA(蘋果手機對人的識別號),或者其他很多別的ID。各種ID中的一些類別,理論上具有與手機硬件捆綁的唯一性(手機不同,號碼不同,而且手機不變,號碼不變),比如前面的IMEIIDFAIMEIIDFA實際上都可以被修改,但可以認為很接近與手機綁定),不會根據手機中裝的APP或者上的網站的不同而發生變化,因此這類識別號比cookie看起來更好。

Snip20160621_33

那麼,現實世界中,這些唯一身份標識好用嗎?

有人說,現實是個大坑,我很想反駁這個觀點,但似乎真實世界真的在強化自己的「大坑」。所謂知易行難,我們知道這些東西好,但未必能用的好。我們繼續往下看。

PC上的唯一身份標識

首先看看PC上的cookie。在PC中,每個網站只能建立自己的cookie,那麼一個網友到了別的網站去,這個網站就看不到他了。對於網友而言,這個事情很好,他不會擔心別人知道了他去了「蒼老師」的網站。但是對於做廣告的營銷人而言,這個可是大大的不好。因為不同網站對人的標識不同,會造成無法追蹤一個人瀏覽不同網站的行為,也就無法判斷這個人的喜好是什麼,畫像的基礎也就不存在了。為瞭解決這個問題,一些廣告公司想了一個辦法,讓在不同的網站上訪問的同一個人,享有同一個cookie,這個cookie不屬於網站,而屬於這個廣告公司。簡單講,就是這個廣告公司給這個人起了一個名字,然後讓這個到哪個網站上,都仍然有這個名字,這時就能判斷這個人看了哪些網站了。這種cookie叫做第三方cookie,而最初的那種cookie叫第一方cookie。第三方cookie是個好東西,能夠跨越不同的網站識別同一個人。而只有實現了跨越不同的網站識別同一個人,才能給每個個人進行畫像的前提。

看起來好像問題解決了,可是,忽然有一天,我們發現cookie這東西越來越不靠譜。原因在於「隱私保護」!人們不喜歡cookie,誰樂意被一個第三方在你不知情的情況下跟蹤你的網絡行為呢?這個問題,對於第三方cookie尤其如此。因為第一方cookie畢竟只能限制在一個網站內,而第三方cookie則有更大的工作範圍。歐洲人抗議最凶,於是歐洲立法要求網站使用cookie時,都要在網站彈出窗口警示訪問者,並且要徵得用戶同意才能保存這個人的cookie。中國雖然沒有什麼立法,但是老百姓也不知道cookie是乾啥的,反正可能有害的那就一定有害,於是很多能夠禁用或者清除cookie的瀏覽器出現了,擁躉眾多。Cookie開始越來越不受待見,由於頻繁的清除和禁止,標識同一個人的cookie的平均生命週期越來越短,現在只有30天左右,而第三方cookie則更加受到限制,很多連建立的機會都沒有。

Snip20160621_34

有取代cookie的更好的方法嗎?在PC端,替代方法有很多,但真正說能取代的,對不起,還真是木有。比如,有人說,用電腦的MAC(網卡硬件編號)來識別就是很好的辦法啊!但是這個東西沒這麼簡單,第一,你憑什麼技術能識別這個?第二,識別這個是法律禁止的!還有人說,用Flash cookie(Adobe公司Flash的唯一用戶識別信息),這個方法還不是照樣被瀏覽器禁用,而且Flash越來越為人所詬病,支持它的網站也在減少。

還有人用另外一種技術方法,似乎可以一定程度上提升cookie的存活期。方法是這樣:利用一種被稱為「鈎子算法」的計算機程序,能夠關聯同一個人的老cookiecookie被清除前)和新cookie(老cookie被清除後又被賦予的新cookie,理論上這兩個cookie已經完全不同了),從而延續一個cookie的生命週期。不過這個方法的致命性在於精確性,對於數以百萬計的cookie而言,每做一次「鈎子」勾連都是只有一定的準確性,誤判難免發生。即使每一次鈎子的準確性都有90%,那麼做五次之後,準確率也就不到一半了。

這些方法都不能根本上解決cookie生命週期逐漸變短這個現實。如果只是對互聯網用戶進行短時間的標識,cookie還是可用的,但越是需要長時間的對於人的識別,cookie的準確性就越低。

所以,PC上的識別,很多人不得已想很多辦法去追蹤硬件號碼,但這個方法是不合法的,而且追蹤之後也不能直接用於廣告投放上。人群畫像,理論上不應該基於PC的硬件識別號。如果這方法不能用,那麼只能接受不完美的cookie去進行短期的人群識別使用。

現在,你應該明白,如果有廣告商跟你講,我們持續數月甚至數年積累同一群人PC上的行為數據,本身就是一個不靠譜的忽悠。這方面,只有大的有賬號體系的互聯網媒體,才做得到。

Mobile端的唯一身份標識

Mobile上的唯一身份標識看起來比PC上要好,因為誰也不能輕易弄掉自己手機的IMEI號碼,也沒有幾個人知道怎麼樣在蘋果手機中清除IDFA。所以在mobile端的唯一身份標識應該既簡單又美好。

但其實不然。

Mobile環境的複雜度比PC有過之而無不及。首先,mobile上用戶對網站和APP的使用大約各站半壁江山。光這一點就比PC痛苦萬分了。但是,為了讓你更能夠瞭解mobile上到底發生了什麼,我們先假設兩種最簡單的情況:mobile上只有網站的情況和mobile上支持APP的情況。

假如這個世界上所有的mobile都只支持網站,而不支持APP,那麼我們可以基本上把mobile當做PC,用cookie來解決這個問題。不過,就算到了mobile上,cookie本身的短板還是一切照舊。不過,你會說,mobile上不是有IMEIIDFA號碼嗎?難道不能彌補cookie的短板嗎?可惜的是,mobile上的網站對人的唯一身份標識不能用這些跟手機捆綁的識別號碼——無論對網站做何種技術改造,都不能讓網站獲得這些ID。所以,如果mobile只支持網站,那麼你可以認為它就跟前面講的PC的情況沒太多差別。

假設這個世界上所有的mobile都支持APP呢?那會是另外一種景象。前面講過,APP不能用cookie,但APP的追蹤卻可以用IMEI或者IDFA等。不過,它們會好用嗎?

Snip20160621_35

先看IMEI,IMEI一定準確嗎?如果這個世界上不存在水貨機、翻新機,而全部是經過工信部認證批准的通信設備的話,那麼IMEI是最靠譜的。但我們在中國,水貨泛濫,翻新機也很多,這些來路不明的手機的IMEI就有可能是人為修改的。所以很多手機共用一個IMEI號碼,或IMEI號碼都是0的情況就很多了。這種情況造成IMEI的唯一身份的識別率未必高於cookie。另外,IMEI是機器硬件的編碼,這些硬件編碼都涉及到硬件安全性和隱私問題,因此使用它們不能明目張膽。

替代IMEI的方案是一個被稱為OpenUDID,這是被各廣告平台廣泛使用的開源方案,但隨著AppStore開始拒絕接受使用UDID的應用,導致OpenUDID無法被不同應用共享相同的值,注定了上面提到的這些ID們不得不退出歷史的舞台。

需要提醒的一點是,IMEI這種跟手機硬件綁定的識別符,只能在安卓手機上起效,蘋果手機iOS系統通通把它們封鎖了,作為唯一身份標識是沒指望了,除非是越獄後的iPhone

不過蘋果沒有把所有的路都堵絕,它關閉了所有的門,但是「良心發現」(事實上是不得已而為之)開了一個小窗,這個小窗就是IDFAIDFA是蘋果手機獨有的用戶唯一身份標識ID。這個東西能夠實現對APP上用戶的唯一標識。我們有救了嗎?

Snip20160621_36

好一點,但是只能用於識別自己開發的APP的唯一用戶,別人開發的APP用戶的IDFA,你就完全沒法知道了。因為IDFA不像前面講的第三方cookie,可以由一個廣告公司所掌握,而IDFA是完全被蘋果公司掌握的。進行人群畫像的時候,對於用戶唯一身份標識的服務商幾乎都不是APP開發商,而幾乎全部是第三方(廣告公司或者第三方數據公司),因此只能通過跟眾多APP開發商合作才能獲得多個APP中同一個用戶的IDFA,也才能給同一個用戶進行畫像。這基本上不是技術問題,而是純商業問題了。商業問題的難度在於,跟一家兩家合作容易,但是跟一百家兩百家合作,而且還是「與虎謀皮」(拿別人這麼機密的數據信息),難度太大了。畢竟你不是BAT這樣在市場支配地位的廠商。

所以,對用戶進行畫像,安卓手機要好於蘋果手機,原因就在於蘋果的封閉性,第三方的生存空間很窄小。

上面這些都還不是最麻煩的問題。

工程師們告訴我,移動端最大的麻煩是終端的極端多樣性,硬件、操作系統、軟件等等,全部是碎片化的,而利用了各種不同的人的標識手段,相互之間也沒法互通互聯,所以,移動端的唯一身份識真的很難。

可是,這還只是在我們假設的最簡單的兩種情況下!

現實世界中,mobile既支持網站,又支持APP,同一個人基本上都既會用mobile,又會用APP,我們能夠實現跨mobileAPP的唯一用戶識別,並在這個基礎上做人群畫像嗎?

技術方法目前沒辦法。雖然有一些變通的方法,比如設置一個APP和網站通用的ID系統,或者需要同一個用戶先用APP,然後又用網站才能實現一個功能什麼的,但這些變通的方法只能在很小的局部範圍內使用,完全不是通用解決方法。這離我們需要的人群畫像的對所有網民的唯一身份標識還相距甚遠。

所以,移動端同樣不存在準確的唯一身份標識,這意味著我們並不擁有全局性的上帝視角,無法記錄任一用戶使用mobile上的全部網站和APP的相關信息,或者退一步,不說全部,想知道大部分網站和APP的相關信息都很難獲得。甚至,即使是僅僅想知道這些網站的URLAPP的名字都不那麼可能。

跨設備的唯一身份識別

終於講到了跨設備的唯一身份識別,估計你已經等不及了。這個領域可是曾經被熱炒過一陣,但用在人群畫像中似乎並沒有聽聞什麼案例,後來似乎有些「不了了之」。原因何在?

原來,既然在一個mobile設備內,想要實現一個人在同一個設備上跨APP和網站的識別都沒有全局性的通用解決方案,那麼一個人使用多個設備就更沒有全局解決方案了。你早上用手機、中午用PC、晚上用iPad訪問互聯網,然後讓一個廣告商(或者一個第三方服務商)知道是同一個人在使用這些設備,難,真是太難了。

Snip20160621_37

部分互聯網服務提供商(過去它們常常是一些媒體)具有跨設備唯一身份識別能力,比如,它們擁有強賬號體系。所謂強賬號體系,是指無論你在PC上還是手機上使用它們的服務或內容的時候,都需要登錄自己的賬號。這意味著它們「先天」就能知道你是同一個人。

另外還有一些服務商,它們可以通過判斷不同設備經常同時出現在某一個IP號段的現象來判斷這些設備是不是屬於同一個人。這個方法很可行,因為無論是APP還是網站,獲取設備所處的IP的難度並不大,這樣就可以在沒有強賬號體系的情況下,判斷這些設備是否屬於同一個人了。如果算法得到,數據也充分,這種方法的識別率隨時間流逝,可以變得相當精准。當然,我指的相當精准是能夠有超過30%的識別率,80%以上,利用這種方法基本上不太可能。

如果沒有強賬號,也沒有技術方法,那麼最後一種跨設備的唯一身份識別就是通過一些營銷手段來實現。比如,要在手機上掃碼(比如獲得優惠券),然後在PC上實現某個功能什麼的(比如完成購物)。這聽起來夠折騰的,但是確實比完全沒轍強。當然,這種跨設備的唯一身份識別的範圍那就是極小極小了,因此不具備人群畫像所需要具備的普遍性。

但問題在於,如果你希望得到某個人(或者是某群人)的畫像,你不太可能只依靠某一個互聯網服務提供商就能完成。因為這個人(或者這群人)的互聯網使用行為一定不會囿於這一個服務提供商的範圍內,而是遍際於互聯網的各處——他們一會兒用百度搜索點什麼,一會兒用騰訊QQ聊聊天,一會兒用淘寶買點東西——沒有任何第三方可以同時獲得同一個用戶在不同設備上使用各種互聯網服務的數據。即使可能,難度也極端巨大。

所以,我們希望的用全網用戶數據來給人群畫像那根本不可能,所有的人群畫像,都只能基於局部的數據。而實現跨設備識別唯一身份,除了少數服務商之外,基本上都只能停留在口頭上。這跟數據處理能力,或者什麼大數據毛線關係都沒有,再牛逼的數據能力也沒用,這就是現實世界的事實。

好了,下面我自己總結了一下PCMobile端各種用戶身份識別方式的優缺點,並不定量,所以僅大家參考:

各種方式識別唯一身份的優/缺點

Snip20160621_30

Download link => 網路人群畫像的玄機.pdf.