《電子商務(wù)推薦系統(tǒng)導(dǎo)論》既可作為有興趣從事推薦系統(tǒng)領(lǐng)域研究工作的高校教師和研究生的理論基礎(chǔ)用書,幫助他們了解本領(lǐng)域研究現(xiàn)狀,把握關(guān)鍵問題,熟悉基本方法;亦可作為企業(yè)工程師設(shè)計和開發(fā)推薦系統(tǒng)時的參考書。
第1 章引論
1.1 推薦系統(tǒng)概述
1.1.1 推薦系統(tǒng):動機與現(xiàn)狀
因特網(wǎng)的崛起和迅猛發(fā)展使人們獲得了前所未有的自由信息空間,也使得世界范圍內(nèi)的信息處于大爆炸狀態(tài),造成信息量大、信息質(zhì)量差、信息價值低等問題,用戶難以從過量信息中獲取對自己有用的部分,這就是所謂的信息過載(information overload)[1] 。正如文獻(xiàn)[2]中所言,數(shù)據(jù)是廣泛可用的,所缺乏的是從中提取出知識的能力。為應(yīng)對信息過載問題,大量信息過濾網(wǎng)絡(luò)工具應(yīng)運而生,人們最常用的莫過于門戶網(wǎng)站和搜索引擎,但這些工具都是以面向人們主流需求為主,且用戶獲取信息的方式是“被動”的。
顯然,考慮個性化需求,將有用信息以“主動”方式推送(push) 給用戶不僅能過濾信息,而且能增強用戶體驗,推送的信息也更符合用戶個體的需求。簡信息聚合(really simple syndication,RSS)是一種在主動信息推送服務(wù)方面的典型工具。RSS 是一種消息來源格式規(guī)范,能夠?qū)⑿侣剺?biāo)題、摘要、內(nèi)容按照用戶的要求“送”到用戶桌面。但是,在RSS 中,用戶興趣通常是由用戶預(yù)先給定的關(guān)鍵詞來描述,但缺乏自動挖掘用戶興趣的功能。
推薦系統(tǒng)(recommender systems) 是一種為用戶提供建議的智能化軟件工具,是解決信息過載問題非常有潛力的方法[3] 。推薦系統(tǒng)的研究與開發(fā)始于20 世紀(jì)90 年代初期。第一個推薦系統(tǒng)是Tapestry[4] ,是針對電子郵件的推薦系統(tǒng)。該推薦系統(tǒng)通過分析用戶閱讀郵件的歷史行為來對新郵件重新排序,試圖將用戶更感興趣的新郵件推薦給他/她。更為重要的是,Tapestry 首次提出了協(xié)同過濾(collaborative filtering,CF)的概念[4] 。后續(xù)的推薦系統(tǒng)領(lǐng)域研究表明,協(xié)同過濾對推薦系統(tǒng)的發(fā)展產(chǎn)生了深遠(yuǎn)影響,成為關(guān)注最多、應(yīng)用最廣泛的方法之一。
推薦系統(tǒng)與以搜索引擎為代表的信息檢索技術(shù)本質(zhì)區(qū)別[5] 在于:①搜索注重結(jié)果之間的關(guān)系和排序,而推薦則需研究用戶興趣模型,即結(jié)合考慮用戶與推薦對象的特征;②搜索由用戶主導(dǎo),包括輸入查詢詞和選擇結(jié)果,若結(jié)果不好,用戶會修改查詢再次搜索,而推薦則由系統(tǒng)主導(dǎo)用戶的瀏覽順序,主動引導(dǎo)用戶發(fā)現(xiàn)需要的結(jié)果。
·2·電子商務(wù)推薦系統(tǒng)導(dǎo)論
從20 世紀(jì)90 年代初期到現(xiàn)在,推薦系統(tǒng)受到學(xué)術(shù)界和工業(yè)界的長期關(guān)注,成為炙手可熱的研究議題。推薦系統(tǒng)是一門典型的交叉學(xué)科,涵蓋計算機科學(xué)、電子商務(wù)、人類社會學(xué)、物理學(xué)、經(jīng)濟學(xué)等諸多領(lǐng)域,圖1.1 給出2013 年國際頂級會議ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD) 投稿數(shù)量的分布,可以看出,推薦系統(tǒng)在20 個領(lǐng)域中排名第三,其熱度由此可見一斑。從2007 年開始,ACM 設(shè)立了專門討論推薦系統(tǒng)的國際會議,ACM Recommender Systems Conference (RecSys) 至今已舉辦8 屆,其知名度持續(xù)上升。從2006 年開始,美國密歇根大學(xué)Paul Resnick 教授開設(shè)了“推薦系統(tǒng)”課程。
圖1.1 KDD 2013 年投稿數(shù)量領(lǐng)域分布
隨著社會網(wǎng)絡(luò)、物聯(lián)網(wǎng)、大數(shù)據(jù)等新概念和新技術(shù)的出現(xiàn)和升溫,信息過載問題將日益嚴(yán)重,同時,工業(yè)界的需求導(dǎo)致用戶對信息獲取方式的要求也變得越來越高。推薦系統(tǒng)作為既能應(yīng)對信息過載,又能智能化地為用戶主動推送信息的強有力手段,可以預(yù)計,在今后數(shù)十年內(nèi),推薦系統(tǒng)仍然將獲得持續(xù)關(guān)注,更加有效和高效的推薦系統(tǒng)將在人類信息化進(jìn)程中扮演越來越重要的角色。
1.1.2 電子商務(wù):推薦系統(tǒng)最重要的應(yīng)用領(lǐng)域
Companies need to shift from the old world of mass production where “standardized products, homogeneous markets, and long product life and development cycles were the rule” to the new world where “variety and customization supplant standardized products”.
quoted from “Mass Customization”by Joe Pine[6]
第1 章引論·3·
以上內(nèi)容引自Joe Pine 的著作“Mass Customization”,說明了企業(yè)由傳統(tǒng)模式過渡到現(xiàn)代模式的法則,需要從傳統(tǒng)標(biāo)準(zhǔn)化商品過渡到多樣化的定制商品,其隱含意思就是充分考慮用戶個性化需求。這段話恰當(dāng)?shù)卣f明了推薦系統(tǒng)為何在電子商務(wù)領(lǐng)域得到良好發(fā)展和應(yīng)用的原因。用戶的需求通常是模糊的,而商家期望能夠把滿足用戶模糊需求的商品推薦給用戶,把用戶潛在需求轉(zhuǎn)化為現(xiàn)實需求,從而達(dá)到提升商品銷售量的目標(biāo)。
電子商務(wù)將企業(yè)的銷售行為從線下實體店銷售搬到了在線銷售,用戶行為和商品信息的數(shù)字化更加促進(jìn)推薦系統(tǒng)的應(yīng)用。目前,幾乎所有的大型電子商務(wù)網(wǎng)站都不同程度地采用了推薦系統(tǒng)[5] ,電子商務(wù)成為推薦系統(tǒng)最重要的應(yīng)用領(lǐng)域,同時,電子商務(wù)企業(yè)的應(yīng)用和研究也促進(jìn)了推薦系統(tǒng)的發(fā)展,比如,Amazon 在10 年前提出了基于項目的協(xié)同過濾方法[7] ,并沿用至今。推薦系統(tǒng)為電子商務(wù)企業(yè)帶來了新的營銷觀念,即“一對一營銷”,正如Amazon CEO Jeff Bezos 所說,“如果我們有200 萬個網(wǎng)絡(luò)客戶,我們就需要在線儲備200 萬種商品”?偟膩碚f,推薦系統(tǒng)能為電子商務(wù)企業(yè)帶來以下三方面的收益[8] 。
(1) 提升瀏覽到購買的轉(zhuǎn)化率。網(wǎng)站訪問者經(jīng)常漫無目的地瀏覽網(wǎng)站,卻不購買任何商品,推薦系統(tǒng)能幫助訪問者發(fā)現(xiàn)其感興趣的商品,從而促進(jìn)訪問者到購買者的轉(zhuǎn)化。
(2) 提升交叉銷售量。推薦系統(tǒng)通過向用戶推薦與其已購買商品相關(guān)聯(lián)的商品,用戶在購買的最后步驟,網(wǎng)站會向用戶推薦與購物車內(nèi)商品極為相關(guān)的附屬商品。
(3) 提升用戶忠誠度。如何提升用戶忠誠度或黏粘度是電子商務(wù)網(wǎng)站的核心商業(yè)策略之一,推薦系統(tǒng)建立起網(wǎng)站與用戶之間的聯(lián)系,為提升用戶忠誠度提供附加值,用戶往往會重復(fù)訪問與其興趣偏好相匹配的網(wǎng)站,甚至?xí)䦟⑦@些網(wǎng)站推薦給自己的朋友圈。
在競爭日趨激烈的環(huán)境下,電子商務(wù)推薦系統(tǒng)能夠為電子商務(wù)網(wǎng)站有效保留用戶,提高電子商務(wù)系統(tǒng)績效,產(chǎn)生巨大的經(jīng)濟效益。構(gòu)建一個推薦效率高、精度高而且UI 界面合理的商品推薦系統(tǒng)對于電子商務(wù)網(wǎng)站的發(fā)展十分重要,推薦系統(tǒng)也因此成為工業(yè)界的關(guān)注熱點。
1.1.3 推薦系統(tǒng):形式化建模
一般地,推薦系統(tǒng)包含兩類實體:用戶(user)和項目(item) 。用戶是指被推薦對象,無需過多解釋。而項目則是指推薦對象,推薦系統(tǒng)領(lǐng)域的所有英文文獻(xiàn)都使用“item”一詞來表達(dá),本書統(tǒng)一將“item ”譯為“項目”,泛指不同領(lǐng)域的推薦對象。比如,電子商務(wù)推薦系統(tǒng)中,項目表示商品或物品;音樂和電影推薦系統(tǒng)中,項目則表示CD 和DVD;新聞推薦系統(tǒng)中,項目又表示新聞網(wǎng)頁,等等。盡管“項目”有可能與英語“project”一詞相混淆,但是,將推薦實體“item ”譯為“項目”在
·4·電子商務(wù)推薦薦系統(tǒng)導(dǎo)論
推薦系統(tǒng)領(lǐng)域的中文文獻(xiàn)中廣廣泛出現(xiàn)[5,9-12]]。
推薦系統(tǒng)輸入數(shù)據(jù)的最簡單形式是用戶戶對項目的評分分?jǐn)?shù)據(jù),稱為用用戶-項目評分矩陣(user-iteem rating matriix),大部分?jǐn)?shù)據(jù)據(jù)集采用5 分制制(或5 星制)評評分,即5 分表示最滿意,依依次遞減。盡管管實際電子商務(wù)務(wù)系統(tǒng)提供了用用戶對購買中不不同方面的評分,如圖1.2 所所示的淘寶網(wǎng)評評分體系,就支持持“寶貝與描述述相符”、“賣家家服務(wù)態(tài)度”、“賣家發(fā)貨速度度”3 種不同子子項。但是,在在推薦系統(tǒng)形式式化建模時卻通通常只考慮綜合評分。同時,用戶-項目評評分矩陣不一定定都是顯式給出出,也可以基于于隱含的用戶和項目關(guān)系推測得到。如果用用戶對某項目評評過分,其偏好好已經(jīng)從用戶--項目評分矩陣中反映出來,,已評分項目就就不作為推薦給給用戶的候選對象象。因此,推薦薦系統(tǒng)工作時試圖預(yù)測用戶對對未評分項目的的偏好程度,由預(yù)測分值反映。;谏鲜龇治鑫,推薦系統(tǒng)
本質(zhì)是基于已有
有的用戶-項目評
:
(評分矩陣稱為訓(xùn).
訓(xùn)練集),尋找一
,
一個準(zhǔn)確的預(yù)測
測函數(shù)P:
1.1
,
,
其中,U 和I 分別表示用戶和和項目的集合,,任意待預(yù)測的的用戶項目對(uu,i)在訓(xùn)練集中的評分為空值值。一旦利用預(yù)預(yù)測函數(shù)P 對對用戶-項目評分分矩陣缺失值計計算出預(yù)測分值后,就很容易易產(chǎn)生推薦,即即將預(yù)測分值最最高的項目(或N 個分值最高的的項目集合)
這這一過程形式化化為
推薦給用戶,
,
1.2
aargmax
,
圖1.2 淘寶網(wǎng)網(wǎng)評分體系
第1 章引論·5·
集合U 和I 在實際中都非常大,用戶規(guī)模很容易達(dá)到百萬級,項目規(guī)模則更大,這導(dǎo)致超大規(guī)模的用戶-項目評分矩陣,因此,依靠遍歷評分矩陣整個空間設(shè)計預(yù)測函數(shù)P 在計算上不可行。圍繞計算預(yù)測值的效率問題,推薦系統(tǒng)提出了大量各種各樣的模型和算法,如基于內(nèi)容的、協(xié)同過濾、混合型、基于矩陣分解的方法等。
推薦算法(recommendation algorithm) 決定了預(yù)測函數(shù)P 的設(shè)計和計算,是整個推薦系統(tǒng)最核心和關(guān)鍵的部分,在很大程度上決定了推薦系統(tǒng)的類型和性能優(yōu)劣。推薦算法也因此成為探討推薦系統(tǒng)的核心部分,本書后續(xù)章節(jié)正是圍繞主流推薦算法來介紹電子商務(wù)推薦系統(tǒng)。盡管推薦系統(tǒng)是一門交叉學(xué)科,與其聯(lián)系最緊密的是數(shù)據(jù)挖掘(data mining) ,數(shù)據(jù)挖掘是自動地從大規(guī)模數(shù)據(jù)集中發(fā)現(xiàn)有用信息的過程,幾乎所有的推薦算法都可以被認(rèn)為是一種數(shù)據(jù)挖掘技術(shù)[13] 。數(shù)據(jù)挖掘過程大致可分為三個階段:數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析以及結(jié)果解析,圖1.3 描述了這三個階段中與推薦算法密切相關(guān)的數(shù)據(jù)挖掘方法。在數(shù)據(jù)預(yù)處理階段,距離計算、抽樣、維度約簡等技術(shù)經(jīng)常被用于協(xié)同過濾算法。在數(shù)據(jù)分析階段,分類技術(shù)經(jīng)常被用于基于內(nèi)容的推薦算法,關(guān)聯(lián)規(guī)則挖掘形成了一種單獨的推薦算法,聚類可用于具有相似興趣的用戶群組發(fā)現(xiàn)及具有相似屬性的商品群組發(fā)現(xiàn)。
圖1.3 推薦系統(tǒng)中經(jīng)常使用的數(shù)據(jù)挖掘技術(shù)(圖片來源:文獻(xiàn)[13])
1.2 推薦系統(tǒng)研究概覽
1.2.1 挑戰(zhàn)性問題
推薦系統(tǒng)的研究是圍繞其面臨的挑戰(zhàn)性問題而展開的,因此,首先應(yīng)在清楚了
·6·電子商務(wù)推薦系統(tǒng)導(dǎo)論
解挑戰(zhàn)性問題的基礎(chǔ)上,來進(jìn)一步闡釋已有的推薦系統(tǒng)研究工作。本書后續(xù)章節(jié)將圍繞針對推薦系統(tǒng)所面臨的挑戰(zhàn)性問題的研究工作而展開論述,試圖為推薦系統(tǒng)這一活躍的研究領(lǐng)域勾勒出較為全面、清晰的概貌。
1. 推薦算法的準(zhǔn)確度和可擴展性
推薦算法一直是推薦系統(tǒng)研究中最核心的問題,關(guān)注焦點包括準(zhǔn)確度和可擴展性兩個方面。準(zhǔn)確度是衡量算法的有效性(effectiveness) ,可擴展性是衡量算法的效率(efficiency) 。目前,如何設(shè)計效率快且準(zhǔn)確度高的算法仍然是一個開放性話題,百家爭鳴,各種各樣的推薦算法被提出。導(dǎo)致這一挑戰(zhàn)的根本原因在于數(shù)據(jù)呈現(xiàn)高度稀疏性,即用戶和項目規(guī)模通常達(dá)到百萬級,甚至千萬級,而已知的評分?jǐn)?shù)據(jù)又比較稀少,基于如此稀疏的數(shù)據(jù),設(shè)計兼顧有效性和效率的算法卻是一大挑戰(zhàn)。目前已有的研究大多沿著兩種思路來設(shè)計推薦算法:一種是以稀疏的用戶-項目評分矩陣為輸入數(shù)據(jù),依托數(shù)據(jù)挖掘技術(shù),提出新的模型和算法,包括協(xié)同過濾及其各種變例、基于內(nèi)容的推薦、基于維度約簡的各類模型以及基于關(guān)聯(lián)規(guī)則挖掘的推薦等,將在第2 章介紹這些算法;另一種是在用戶-項目評分矩陣的基礎(chǔ)上,融入更多的額外數(shù)據(jù)以緩解稀疏性。將在第3 章討論的情境推薦模型與算法中考慮推薦的上下文信息,可能包括用戶購買意圖、季節(jié)、節(jié)日、位置、同伴、天氣等因素。將在第4 章討論的社會化推薦模型與算法中則考慮用戶的社會關(guān)系信息,將推薦系統(tǒng)與社會網(wǎng)絡(luò)結(jié)合到一起。
從算法采用的模型來看,無論是單一的評