消費(fèi)者行為數(shù)據(jù)驅(qū)動(dòng)的搜索結(jié)果多樣性問題研究
定 價(jià):58 元
- 作者:黃鑫著
- 出版時(shí)間:2022/9/1
- ISBN:9787518992249
- 出 版 社:科學(xué)技術(shù)文獻(xiàn)出版社
- 中圖法分類:F723.5
- 頁碼:204頁
- 紙張:膠版紙
- 版次:1
- 開本:24開
本書首先從分析在線評論入手,同時(shí)針對性地考慮了“長尾”產(chǎn)品評論的文本稀疏性問題,構(gòu)建了從消費(fèi)者在線評論中提取產(chǎn)品特征和消費(fèi)者情緒的主題模型;然后在抽取出的產(chǎn)品主題特征(外觀、質(zhì)量等)和情感觀點(diǎn)(喜歡、抱怨、無感等)信息基礎(chǔ)上,提出了度量具有數(shù)值屬性和文本屬性的數(shù)據(jù)對象之間相似性的方法;并相應(yīng)地開發(fā)了可以提取多樣化結(jié)果的搜索算法;最后建立了刻畫消費(fèi)者興趣偏好的用,戶分析模型,通過結(jié)合用戶偏好和產(chǎn)品特征觀點(diǎn),設(shè)計(jì)了滿足消費(fèi)者個(gè)性化需求的搜索算法。
為了解決網(wǎng)絡(luò)消費(fèi)者面臨的信息過載問題,學(xué)術(shù)界和業(yè)界開發(fā)了搜索引擎等有效工具來幫助消費(fèi)者從海量信息中快速獲取與消費(fèi)者查詢相關(guān)的內(nèi)容。運(yùn)用現(xiàn)有方法檢索的結(jié)果通常相似,這樣冗余的信息已經(jīng)很難滿足消費(fèi)者對多樣化信息的需求,極大地降低了消費(fèi)者的搜索體驗(yàn)。如何增加搜索結(jié)果的多樣性已經(jīng)成為大數(shù)據(jù)時(shí)代下信息搜索領(lǐng)域新的研究熱點(diǎn)。在Web2.0時(shí)代下,在線為消費(fèi)者提供了豐富的信息,幫助其做出佳的購買決策。通過考慮在線中隱藏的消費(fèi)者評價(jià)信息,在搜索結(jié)果中生成一些產(chǎn)品評價(jià)特征相似的替代選項(xiàng),不僅有利于增加搜索結(jié)果的多樣性,而且能夠根據(jù)消費(fèi)者的興趣偏好,找出對消費(fèi)者價(jià)值更高的產(chǎn)品選項(xiàng)。然而,目前基于在線的搜索結(jié)果多樣性研究仍然處于探索階段。
本書從挖掘在線入手,構(gòu)建了面向長尾產(chǎn)品的特征-觀點(diǎn)挖掘模型。不同于以往的研究,該模型刻畫了文檔級別的情感特征分布,提出了基于多詞性標(biāo)注的大熵模型特征函數(shù)方法,并結(jié)合單詞共現(xiàn)模式對長尾產(chǎn)品特征詞和消費(fèi)者觀點(diǎn)行了的識別與區(qū)分,設(shè)計(jì)了吉布斯采樣算法對模型參行求解,同時(shí)提出了的k-medoids算文行分類。在提取出的產(chǎn)品特征-觀點(diǎn)對基礎(chǔ)上,本書提出了基于知識注入和條件熵的混合數(shù)據(jù)相似性度量學(xué)。與許多現(xiàn)有方法相比,它通過將從提取的外部知識注入屬性內(nèi)相似度學(xué),更好地捕獲文本屬性值之間的語義相似度;通過將信息增益比嵌入屬性間相似性學(xué),更地刻畫屬性之間的全局交互關(guān)系;通過將數(shù)值屬性和文本屬性統(tǒng)一到相同向量空間下,避免了手動(dòng)選擇反映數(shù)值屬性或文本屬性偏好程度的調(diào)整參數(shù),好地保留了屬性值的原始信息。在相似性度量的基礎(chǔ)上,針對現(xiàn)有密度峰值方法的缺陷,本書提出了基于共享近鄰的EDPC(Enhanced Density PeaksClustering)算法對數(shù)據(jù)對行搜索,通過考慮數(shù)據(jù)空間中對象的局部結(jié)構(gòu),降低了算法對空間密度和維度變化的敏感度。本書建立了刻畫消費(fèi)者興趣動(dòng)態(tài)偏好的消費(fèi)者分析模型,通過結(jié)合消費(fèi)者偏好和產(chǎn)品的特征、觀點(diǎn),設(shè)計(jì)了滿足消費(fèi)者個(gè)性化需求的搜索算法。同時(shí),本書探討了新背景下全機(jī)制研究的機(jī)遇與挑戰(zhàn)。
本書承蒙國家自然科學(xué)(72101031、71871177)和國家研發(fā)計(jì)劃(18YFB1703001)的資助,在此對研究的大力資助深表感謝,同時(shí)由衷地感謝科學(xué)技術(shù)文獻(xiàn)出版社在本書編輯和出版過程中所做的各項(xiàng)工作。
由于筆者水平有限,本書還存在一些不足之處,懇請廣大讀者批評指正。
黃鑫,年畢業(yè)于西安交通大學(xué),獲得管理學(xué)博士學(xué)位,現(xiàn)為師范大學(xué)信息管理系講師。目前主要研究方向?yàn)榻Y(jié)合運(yùn)籌優(yōu)化與機(jī)器學(xué)能決策分析,社會科學(xué)中機(jī)器學(xué)的應(yīng)用。現(xiàn)主持 自然科學(xué)青年項(xiàng)目“消費(fèi)者行為數(shù)據(jù)驅(qū)動(dòng)的新企業(yè) 線下融合的 機(jī)制研究”1項(xiàng)。在《Knowledge-Based Systems》、《IEEE Transactions on Engineering Management》、《Computers & Industrial Engineering》等 知名期刊上文多篇,在企業(yè)集成信息系統(tǒng) 大會IFIP CONFENIS、COMPUTERS AND INDUSTRIAL ENGINEERING等高水平 會議上發(fā)表多篇學(xué)術(shù)論文。
1 大數(shù)據(jù)時(shí)代搜索技術(shù)面臨的挑戰(zhàn)
1.1 研究背景
1.2 研究問題與意義
1.3 研究內(nèi)容與技術(shù)路線
2 個(gè)性化搜索的研究動(dòng)態(tài)
2.1 在線的有用性研究
2.2 基于數(shù)據(jù)的搜索結(jié)果研究
2.3 搜索結(jié)果多樣性相關(guān)研究
2.4 研究評述
3 面向長尾產(chǎn)品的特征-觀點(diǎn)挖掘模型
3.1 問題描述
3.2 面向長尾產(chǎn)品的特征-觀點(diǎn)挖掘模型構(gòu)建
3.3 實(shí)驗(yàn)結(jié)果分析
3.4 本章小結(jié)
4 基于產(chǎn)品評價(jià)特征的多樣化搜索結(jié)果識別研究
4.1 問題描述
4.2 預(yù)備知識
4.3 混合數(shù)據(jù)的統(tǒng)一相似性度量問題研究
4.4 多樣化搜索結(jié)果識別算法構(gòu)建
4.5 實(shí)驗(yàn)結(jié)果分析
4.6 本章小結(jié)
5 基于消費(fèi)者動(dòng)態(tài)偏好的多樣化搜索結(jié)果識別研究
5.1 問題描述
5.2 消費(fèi)者動(dòng)態(tài)偏好分析模型構(gòu)建
5.3 搜索結(jié)果大相關(guān)-多樣性問題研究
5.4 實(shí)驗(yàn)結(jié)果分析
5.5 本章小結(jié)
6 基于消費(fèi)者在線查詢的問題研究
6.1 問題描述
6.2 基于在線查框架構(gòu)建
6.3 實(shí)驗(yàn)結(jié)果分析
6.4 本章小結(jié)
7 新背景下全機(jī)制研究的機(jī)遇與挑戰(zhàn)
7.1 新背景下全機(jī)制研究的意義
7.2 全機(jī)制研究梳理
7.3 現(xiàn)有研究的不足與未來的研究方向
8 結(jié)論與展望
8.1 研究結(jié)論
8.2 研究展望
參考文獻(xiàn)
1大數(shù)據(jù)時(shí)代搜索技術(shù)面臨的挑戰(zhàn)
1.1研究背景
1.1.1大數(shù)據(jù)時(shí)代下消費(fèi)者對信息多樣性的需求
來,信息技術(shù)和互聯(lián)網(wǎng)應(yīng)入蓬勃發(fā)展期,以“互聯(lián)網(wǎng)+”為代表的互聯(lián)網(wǎng)思維催生出云計(jì)算、物聯(lián)網(wǎng)、大數(shù)據(jù)等諸多顛覆技術(shù)。這些前沿技術(shù)被廣泛地應(yīng)用到了經(jīng)濟(jì)與社會發(fā)展的方方面面,給各個(gè)傳統(tǒng)行業(yè)帶來了的變革,這也導(dǎo)致整個(gè)社會的信息量呈指數(shù)形態(tài)瘋狂增長。IDC①18年發(fā)布的《數(shù)據(jù)時(shí)代25》白皮書中的數(shù)據(jù)顯示,18年全球產(chǎn)生的數(shù)量達(dá)到了33ZB,到25年,全球數(shù)據(jù)規(guī)模預(yù)計(jì)將會增長到175ZB,在這8年間全球數(shù)據(jù)規(guī)模將以平均每年26.9%的速度不斷膨脹,如圖1-1所示。雖然高速發(fā)展的互聯(lián)網(wǎng)和信息技術(shù)為網(wǎng)絡(luò)消費(fèi)者帶來了豐富的信息,但是消費(fèi)者自身有限的信息處理能力,使得消費(fèi)者很難從海量的信息中尋找并發(fā)現(xiàn)自己感興趣的相關(guān)內(nèi)容,這種現(xiàn)象被稱為信息過載問題(Eppler et al.,04)。以電子商務(wù)網(wǎng)站網(wǎng)為例,全球知名的市場研究機(jī)構(gòu)eMarketer 披露的數(shù)據(jù)顯示,截至19年,網(wǎng)在線商品達(dá)到10億件,消費(fèi)者規(guī)模升至7.55億。消費(fèi)者要想從這10億件商品中找到符合自己各種偏好需求的商品并不是一件容易的事情,他們甚至?xí)谒阉魃唐、做出購買決策的過程中感到不堪重負(fù)。另一個(gè)鮮活的實(shí)例便是在線搜索,根據(jù)知名計(jì)算機(jī)軟件供應(yīng)商Smart insight的調(diào)研,谷歌(Google)每搜索量能達(dá)到35億次,也就是說全球消費(fèi)者每秒鐘就行4萬多次搜索,消費(fèi)者想要在短時(shí)間內(nèi)找到符合自己需求的信息絕非易事,為了搜索到自己真正想要的答案其至?xí)ㄙM(fèi)掉消費(fèi)者數(shù)小時(shí)的時(shí)間;ヂ(lián)網(wǎng)為消費(fèi)者提供了無限的信息資源供其瀏覽,但是通常情況下消費(fèi)者很難找到與自身需求相關(guān)的有用信息(Gao et al,)。
……