你所不知道的千人千面,人群推薦算法深度解讀,正確認(rèn)識(shí)人群!
2023-01-19 | 13:51 | 發(fā)布在分類 / 開網(wǎng)店 | 閱讀:82
2023-01-19 | 13:51 | 發(fā)布在分類 / 開網(wǎng)店 | 閱讀:82
去年夏天答應(yīng)你寫的那篇關(guān)于千人千面的文章,到現(xiàn)在才寫出來。
先跟大家道歉,因?yàn)槲乙恢毕牖谒惴▽用鎭斫忉?,想把千人千面的工作原理解釋透徹,但又怕太學(xué)術(shù),讓大部分讀者看不懂,所以整理了半天,決定用學(xué)術(shù)內(nèi)容+通俗易懂的場景講解讓大家看懂。
在日常和粉絲的交流中,我發(fā)現(xiàn)很多人對千人的理解是錯(cuò)誤的。
以下是一些典型的錯(cuò)誤理論,供大家參考:1。
刷榜可以控制精準(zhǔn)人群,稱為細(xì)刷。
2.刷單的時(shí)候會(huì)通過提前收藏,添加,第二天或者更長時(shí)間交易,讓鏈接人群更加精準(zhǔn)。
3.只要我用女性賬號(hào)刷單,就是女性標(biāo)簽。
如果我用馬的賬號(hào)刷的話,那就是馬的標(biāo)簽。
4.通過直通車人群溢價(jià)刷單,會(huì)避免人群不準(zhǔn)確的問題。
5.人群的精準(zhǔn)性會(huì)讓鏈接的權(quán)重更高。
6.不登錄我的賬號(hào),我的搜索結(jié)果也不是幾千人。
以上論點(diǎn)在很多人心中根深蒂固,大多數(shù)人對人群標(biāo)簽的理解也就止于此。
因?yàn)橐恍C(jī)構(gòu)和非政府組織的傳播,類似這樣的說法非常流行(你會(huì)發(fā)現(xiàn),以上的例子大部分都和刷單有關(guān)。
其實(shí)這是告訴你,刷單不能保證人群的準(zhǔn)確性)。
但是,這些說法真的不對。
你可能會(huì)覺得不可思議,那么這些論點(diǎn)怎么會(huì)錯(cuò)呢?
先從推薦算法本身的原理給你解釋一下,讓你知道什么是千人千面。
相信你可以自己找到答案(如果看完文章還是看不懂,可以再問我)。
說到千人千面,人們給這些名詞貼上標(biāo)簽,就不得不說推薦算法,這是數(shù)學(xué)和信息技術(shù)完美結(jié)合的偉大發(fā)明。
它是一種基于大量樣本統(tǒng)計(jì)和用戶行為協(xié)同過濾來預(yù)測用戶需求的技術(shù)。
從買方的角度來看,這項(xiàng)技術(shù)將使用戶實(shí)現(xiàn)他們想要的。
從賣家的角度,可以拓展競爭維度,減少單一維度的競爭壓力,讓產(chǎn)品多元化,百花齊放。
好吧,這只是一個(gè)千人千面的概念,可能不太好理解。
讓我們從現(xiàn)場來理解千人千面的存在。
相信大家都有這樣的經(jīng)歷。
比如你坐月子的老婆打電話給你,說家里的尿布不夠用。
這些現(xiàn)象讓我們感覺像是個(gè)人信息的泄露。
是你的行為數(shù)據(jù)讓平臺(tái)知道了你的需求。
我們以淘寶的千人千面為例。
買家注冊賬號(hào)時(shí),需要填寫性別、身份證號(hào)等個(gè)人信息。
很多人認(rèn)為這是幾千人的數(shù)據(jù),但這些數(shù)據(jù)不靠譜,太基礎(chǔ)。
,這將構(gòu)成數(shù)萬人的事實(shí)標(biāo)簽。
收集標(biāo)簽容易,建模型難。
如何通過標(biāo)簽?zāi)P途珳?zhǔn)預(yù)測用戶需求?
我們以淘寶首頁的內(nèi)容板塊為例。
常規(guī)的行為推薦算法類似于這個(gè)公式:內(nèi)容訪問權(quán)重=行為權(quán)重*時(shí)間權(quán)重*衰減因子,行為權(quán)重:我們點(diǎn)擊一條內(nèi)容,回復(fù),喜歡等。
,這些都將包含在行為權(quán)重中。
根據(jù)平臺(tái)上積累的大數(shù)據(jù),計(jì)算不同品類、不同產(chǎn)品下的各種運(yùn)營行為的權(quán)重分值,在用戶回復(fù)、喜歡、喜歡、喜歡時(shí)添加權(quán)重分值;時(shí)間權(quán)重:停留時(shí)間越長,時(shí)間權(quán)重越高;衰減因子:用戶的單一行為不能作為用戶喜好的直接評(píng)價(jià),權(quán)重會(huì)隨著時(shí)間逐漸降低。
通過這三個(gè)權(quán)重維度的綜合計(jì)算,得到我們的內(nèi)容訪問權(quán)重。
當(dāng)我們多次訪問同一類型的內(nèi)容時(shí),每次都會(huì)得到相應(yīng)的內(nèi)容訪問權(quán)重。
平臺(tái)把這些權(quán)重累加起來,然后用神經(jīng)網(wǎng)絡(luò)的閾值函數(shù)(Sigmoid函數(shù))進(jìn)行標(biāo)準(zhǔn)化,得到一個(gè)閾值為(0,1)的結(jié)果。
通常推薦算法的標(biāo)準(zhǔn)化過程是Sigmoid函數(shù)的變形公式。
得到一個(gè)閾值位為010的結(jié)果,也就是我們所說的質(zhì)量分(直通車的質(zhì)量分也是這樣計(jì)算的)。
權(quán)重(或質(zhì)量分)越高,內(nèi)容板塊推薦相似內(nèi)容的比例和頻率越高。
這就是行為推薦算法(你的行為影響你)。
值得一提的是,世界上所有推薦算法的處理過程都差不多,沒有太大區(qū)別。
這個(gè)過程通常被稱為標(biāo)簽化(比如我們搜索閱讀了一個(gè)產(chǎn)品后,如果我們猜測你喜歡,就會(huì)推薦一個(gè)類似的產(chǎn)品,而閱讀了多種產(chǎn)品后,我們猜測你喜歡推薦的頻率是不一樣的)。
但這只是個(gè)人行為推薦。
比如我們刷單的時(shí)候,讓刷手提前瀏覽某個(gè)商品,第二天再搜索,位置會(huì)很高。
很多人會(huì)想當(dāng)然的認(rèn)為這樣會(huì)增加產(chǎn)品的重量。
其實(shí)只是這個(gè)刷手看到的位置變高了,并不代表你的鏈接排名在其他用戶的瀏覽結(jié)果下也會(huì)變高。
是對刷手的錯(cuò)覺和誤解!行為推薦結(jié)果本身就有一定的應(yīng)用場景。
比如我們在使用推廣工具(比如直通車)的時(shí)候,瀏覽的是不被關(guān)注的人群標(biāo)簽。
在這些場景中,使用行為推薦結(jié)果是有意義的,前提是你的訪客是真實(shí)的,而不是刷手的。
否則系統(tǒng)只會(huì)讓你的刷手看到你的鏈接,真正的用戶還是看不到。
除此之外,我們想要得到的是廣大的新客戶。
在獲得新客戶的過程中,推薦算法是如何工作的?
大家在開直通車的時(shí)候都知道,政府提供了一系列的人群包,比如年齡,性別等等。
,作為用戶的基礎(chǔ)數(shù)據(jù)呈現(xiàn)。
但是,上面說的行為推薦結(jié)果難道對千人千面沒有作用嗎?
顯然,這是不可能的。
平臺(tái)會(huì)通過用戶行為收集用戶偏好,梳理出有類似需求的人群,并做出相關(guān)推薦。
先說它是如何工作的:我們每個(gè)人的行為偏好都會(huì)以權(quán)重的形式記錄在云平臺(tái)里,一個(gè)人會(huì)有很多偏好。
系統(tǒng)會(huì)將你的各種偏好轉(zhuǎn)化為特征向量,比如你的消費(fèi)能力、興趣、社交偏好權(quán)重分別為3、6、7。
那么你的偏好值就會(huì)作為一個(gè)坐標(biāo)點(diǎn)R (3,6,7)存儲(chǔ)在多維空間的數(shù)據(jù)模型中,然后通過這種方式,平臺(tái)就可以很容易地根據(jù)與你有相似特征的人的購買行為來推薦你的瀏覽結(jié)果。
即使你沒有做過瀏覽行為,也會(huì)有人推薦給你一些產(chǎn)品或者內(nèi)容。
這種推薦算法遠(yuǎn)比你的行為推薦給你的結(jié)果更有意義,更準(zhǔn)確。
我們稱之為相關(guān)性推薦算法(你的行為影響別人,別人的行為也影響你)。
通常開直通車的人,搜索受購買行為影響的人,都是基于關(guān)聯(lián)推薦算法,而關(guān)聯(lián)推薦算法的前提是行為推薦算法。
但是,用戶的行為特征與用戶的基礎(chǔ)數(shù)據(jù)沒有直接關(guān)系。
比如我們開直通車,傳統(tǒng)的人群包包含了年齡、性別等維度的屬性,而不是特征屬性。
在每個(gè)用戶的行為過程中,系統(tǒng)與用戶填寫的基礎(chǔ)數(shù)據(jù)沒有直接關(guān)系。
我們用戶的基本數(shù)據(jù)(年齡、性別等。
)是顯式數(shù)據(jù)。
用戶行為特征的系統(tǒng)化統(tǒng)計(jì)數(shù)據(jù)稱為隱性數(shù)據(jù)。
平臺(tái)會(huì)將大部分已知的顯示數(shù)據(jù)與其隱式數(shù)據(jù)關(guān)聯(lián)起來,然后對未知的用戶數(shù)據(jù)進(jìn)行訓(xùn)練,預(yù)測用戶的顯式數(shù)據(jù)是否正確。
比如平臺(tái)里所有特征相同的人,可以預(yù)測這些人是否都是男性。
大部分成熟的平臺(tái)現(xiàn)在這樣的預(yù)測結(jié)果準(zhǔn)確率都在90%以上(換句話說,平臺(tái)不會(huì)把你用戶填寫的性別年齡數(shù)據(jù)當(dāng)回事,而是通過大數(shù)據(jù)來確定。
這樣,顯式數(shù)據(jù)就可以作為商家選擇購買廣告的可選標(biāo)簽,比如直通車的性別和年齡段,這些都是商家可選的顯式數(shù)據(jù)。
系統(tǒng)會(huì)找出這些群體隱含的數(shù)據(jù)關(guān)系,推薦給你真正想推薦的用戶。
這也回答了我們一開始提出的一個(gè)問題。
并不是用寶媽人群刷單就能給寶媽人群貼標(biāo)簽的!在這里,我們已經(jīng)基本掌握了推薦算法的原理以及在平臺(tái)中的使用場景。
因?yàn)檫@個(gè)內(nèi)容學(xué)術(shù)性很強(qiáng),可能很多人看了都有抱怨。
沒辦法。
就算你看不懂,我也得先給你解釋一下原理。
對于做過算法工程師的朋友來說,讀起來應(yīng)該會(huì)輕松很多。
不過沒關(guān)系,就算你不理解前面的內(nèi)容也沒關(guān)系,記住后面的內(nèi)容就行了!首先,所有的刷單行為都無法模擬系統(tǒng)對人群偏好的算法,所以不要指望一邊刷單一邊兼顧人群的精準(zhǔn)性,這是永遠(yuǎn)無法實(shí)現(xiàn)的!第二,用戶標(biāo)簽是被動(dòng)形成的,商品標(biāo)簽也是。
在用戶購買的過程中,慢慢形成標(biāo)簽。
千人千面固然重要,但也不要過分神化。
只是概率論和數(shù)理統(tǒng)計(jì)的應(yīng)用過程。
你的產(chǎn)品適合什么樣的人,是在子宮里就決定了的,不是你通過一些技術(shù)手段就能改變的。
你要做的不是找到更好的人群。
第三,人群標(biāo)簽不是競價(jià)系統(tǒng)中的一種權(quán)重(比如搜索結(jié)果)。
競價(jià)權(quán)重本身還是要看產(chǎn)品的產(chǎn)值,但比如一個(gè)品類中有幾個(gè)產(chǎn)品符合同一人群,系統(tǒng)會(huì)優(yōu)先考慮這些產(chǎn)品。
那么我們開直通車的時(shí)候,這類用戶搜索產(chǎn)品的時(shí)候,系統(tǒng)會(huì)根據(jù)我們和競品的競價(jià)關(guān)系,決定先給用戶展示哪些產(chǎn)品。
說到這里,我突然想到,很多品類的計(jì)費(fèi)比例是很大的,所以在這些品類中,用戶的特征采集必然會(huì)有很大的誤差,所以這個(gè)時(shí)候,即使我們付費(fèi)的人是最適合這個(gè)產(chǎn)品的人,也不一定能得到最好的數(shù)據(jù),所以很多商家會(huì)覺得很難為更多品類的推廣付費(fèi)。
其實(shí)在你明白原理之后,你只需要知道你可以被動(dòng)的測試所有的人群條件,找到表現(xiàn)最好的人群去做,而不是主觀的認(rèn)為我的產(chǎn)品一定是男性標(biāo)簽或者高消費(fèi)群體標(biāo)簽,這樣你的數(shù)據(jù)就可以在這個(gè)類別得到優(yōu)化。
更何況根據(jù)法律要求,推薦算法形成的商業(yè)廣告是不允許針對個(gè)人的,所以你不用擔(dān)心個(gè)人資料的泄露(即使泄露不是推薦算法造成的)。
正因如此,即使你沒有登錄賬號(hào),你的操作行為依然會(huì)被平臺(tái)收集,關(guān)聯(lián)你的硬件信息,方便下一次行為推薦結(jié)果的推送。
至此,我想我已經(jīng)把千人千面的道理解釋的很透徹了。
可能大家會(huì)覺得晦澀難懂,但是你反復(fù)看,一定能看懂。
這篇文章可以讓大家很容易的理解千人千面的工作原理,不會(huì)被一些錯(cuò)誤的方法所欺騙,因?yàn)殄e(cuò)誤的理解,做出一些看似有效實(shí)際上毫無意義的行為。
也希望借助這個(gè)平臺(tái),認(rèn)識(shí)真正有共鳴的人,多做研究和探討(感覺很難找到知音!)
這個(gè)問題還有疑問的話,可以加幕.思.城火星老師免費(fèi)咨詢,微.信號(hào)是為: msc496。
推薦閱讀:
拼多多店鋪不能預(yù)售(店鋪不讓發(fā)布預(yù)售商品)
淘寶發(fā)布商品必須填品牌嗎?可以隨便填嗎(淘寶代運(yùn)營公司有用嗎?有哪些好處)
更多資訊請關(guān)注幕 思 城。
微信掃碼回復(fù)「666」
別默默看了 登錄 \ 注冊 一起參與討論!