《UGC質量實時預判機制研究》融合用戶研究、行為科學、信息質量、大數據分析等相關理論和方法,深入探討社交網絡用戶參與行為及其對UGC質量的影響,通過挖掘“用戶行為-UGC質量”關聯,把基于內容和基于行為的方法結合起來,建立了多種基于用戶行為挖掘的UGC質量實時預判模型,為UGC質量治理提供新思路。
與之前相關研究相比,《UGC質量實時預判機制研究》從用戶行為的角度研究UGC質量治理,為適應新一代網絡信息資源管理的需求,提出UGC質量“預判”的思想,能夠變事后控制為事前預測與管理,有助于管理部門更有效地進行網絡內容治理。
更多科學出版社服務,請掃碼獲取。
總序
前言
第1章 緒論 1
1.1 研究背景及意義 1
1.2 國內外研究現狀 4
1.3 研究內容與研究方法 22
1.4 本章小結 26
第2章 UGC基本問題 27
2.1 UGC的發(fā)展現狀 27
2.2 UGC的特點 33
2.3 UGC的類型 34
2.4 UGC存在的問題 38
2.5 本章小結 42
第3章 UGC質量現狀及評價標準 43
3.1 UGC質量現狀 43
3.2 信息質量評價指標 51
3.3 UGC質量評價標準 60
3.4 基于用戶體驗的UGC質量評價標準 72
3.5 高質量UGC的特征 77
3.6 本章小結 80
第4章 社交網絡用戶參與行為及其對UGC質量的影響 81
4.1 社交網絡用戶參與行為 81
4.2 社交網絡用戶參與行為的動因 85
4.3 影響UGC質量的用戶參與行為因素 86
4.4 社交網絡用戶參與行為與UGC質量關聯關系挖掘—以轉發(fā)行為為例 90
4.5 本章小結 104
第5章 基于用戶信譽評級的UGC質量預判模型 105
5.1 基本思路 105
5.2 基于歷史行為的用戶信譽評級算法 107
5.3 基于用戶信譽評級的UGC質量預判機制 113
5.4 實驗驗證—以“新浪微博”為實驗平臺 114
5.5 本章小結 125
第6章 基于用戶行為情景的UGC質量預判模型 126
6.1 UGC用戶行為情景 126
6.2 用戶行為情景本體的形式化表示 131
6.3 基于用戶行為情景本體的UGC質量預判模型 133
6.4 本章小結 138
第7章 基于用戶情緒感知的UGC質量預判模型 139
7.1 UGC用戶情緒感知 139
7.2 研究設計 142
7.3 基于用戶情緒感知的UGC質量預判模型構建 144
7.4 模型檢驗 150
7.5 本章小結 152
第8章 基于用戶畫像的UGC質量預判模型 154
8.1 用戶畫像及其構建方法 154
8.2 基于用戶畫像的UGC質量預判模型的構建 157
8.3 預判模型的驗證 166
8.4 本章小結 173
第9章 總結與展望 174
9.1 本書主要的研究工作 174
9.2 本書的突出特色 177
9.3 本書存在的不足 177
參考文獻 179
附錄 197
附錄1 網絡環(huán)境下影響UGC質量的用戶信息行為重要性專家評分 197
附錄2 “新浪微博”志愿者征集說明 198
附錄3 微博內容質量評估系統(tǒng)部分代碼實現 199
附錄4 詞條內容質量管理系統(tǒng)使用界面 207
附錄5 低質量UGC識別算法關鍵代碼(Python語言實現) 208
附錄6 用戶畫像生成與UGC質量預判模型關鍵代碼(Python語言實現) 211
附錄7 本書設計的爬蟲程序關鍵代碼(Python語言實現) 218
第1章緒論
本章闡述了本書的研究背景及意義,深入分析了國內外UGC質量研究的現狀,在梳理已有研究的基礎上,提出了本書的研究內容和創(chuàng)新之處,以及相應的研究思路和研究方法。
1.1 研究背景及意義
1.1.1 研究背景
隨著互聯網技術的發(fā)展和移動設備的普及,人們的生產生活越來越離不開互聯網絡。尤其是在Web2.0時代,人們可以隨時隨地借助多種形式的移動設備或終端接入互聯網,通過網絡進行信息的創(chuàng)建、傳播、利用等活動。中國互聯網絡信息中心(China Internet Network Information Center,CNNIC)2022年8月發(fā)布的第50次《中國互聯網絡發(fā)展狀況統(tǒng)計報告》指出,截至2022年6月,我國網民規(guī)模為10.51億人,互聯網普及率達74.4%,手機網民規(guī)模達10.47億,網民使用手機上網的比例達99.6%,中國網民規(guī)模與互聯網普及率如圖1.1所示(中國互聯網絡信息中心,2022)。各類網絡設備,數量龐大的網民,大規(guī)模、多形態(tài)、多樣化的信息內容,共同構成了一個巨大的網絡空間。在這個數字空間中,網絡用戶發(fā)揮了極大的主觀能動性,創(chuàng)建和生成了海量、形式豐富的信息內容,這些由用戶創(chuàng)建和生成的海量的文字、圖片、音頻、視頻等內容,就是UGC(User-Generated Content),即用戶生成內容。2007年,經濟合作與發(fā)展組織(Organization for Economic Co-operation and Development,OECD)指出了UGC的三個特征:互聯網上公開可用的內容、內容的創(chuàng)新性以及強調普通用戶的創(chuàng)作。
Web2.0時代,網絡用戶的參與意識逐漸覺醒,他們不再僅僅滿足于信息接收者和信息使用者的身份,參與信息創(chuàng)建與傳播的意識愈發(fā)強烈;ヂ摼W絡也從最初的側重于為用戶提供靜態(tài)網頁展示信息、提供信息來源、強調信息屬性等服務,向更多地為用戶提供信息創(chuàng)建、信息傳播與共享的平臺轉變,強調社交屬性與信息屬性并重。各類網絡平臺在給予用戶更多參與權和選擇權的同時,也更加注重與用戶的交互性。如國外涌現出的Facebook、Twitter、Instagram等網絡社交平臺;Amazon、eBay等電子商務平臺;GitHub、Udemy等在線學習平臺;國內的微博、微信、豆瓣、知乎、抖音、快手、小紅書等各類社交平臺。用戶通過這些社交媒體平臺可以創(chuàng)建、發(fā)布、傳播并利用文字、圖片、視頻、音頻等多形態(tài)、多模態(tài)的信息,既增強了信息的生產、傳播能力,也拓展了用戶的社交范圍!2022年全球數字概覽》(Digital 2022: Global Overview Report)報告顯示(2022年1月發(fā)布),全球約有46.2億人(58.4%)使用社交媒體(Kemp,2022)。就國內而言,目前,微信的“朋友圈”已經成為微信使用率最高的功能;B站2022年第四季度月均活躍用戶達到3.26億人,用戶數量持續(xù)增長(李方,2023)。國外,YouTube視頻平臺的使用率從2019年占美國成年人的73%增長到2021年的81%,用戶每天觀看10億小時的視頻(翟繼茹,2021)。除此之外,第50次《中國互聯網絡發(fā)展狀況統(tǒng)計報告》顯示,截至2022年6月,短視頻用戶規(guī)模達9.62億人,在用戶的帶動下,短視頻類型UGC數量強勢增長,內容范圍逐漸廣泛,傳播范圍也更加分散(中國互聯網絡信息中心,2022)。內容從生產、生活到學習、工作,從健身、旅游到科技、教育,從美食、美妝到購物、體驗評價等眾多領域,充分體現了多元化發(fā)展?梢哉f,網絡用戶參與信息創(chuàng)建的愿望從未如此強烈,參與信息創(chuàng)建的范圍從未如此之廣,參與信息創(chuàng)建的類型從未如此之多。
龐大的用戶規(guī)模、強烈的參與意識使UGC保持增長態(tài)勢。伴隨著各類APP的快速發(fā)展,UGC的類型、形態(tài)、內容也日趨多元化,文本、圖片、音頻、長視頻、短視頻等各種各樣的UGC屢見不鮮。但不可否認的是,隨著用戶參與UGC創(chuàng)建和傳播,UGC質量問題,如信息冗余、信息侵權、信息失真等也逐步浮現。面對海量的UGC,該如何保障和提升其質量是目前數據時代面臨的一大難題。一方面,越來越多的用戶參與到信息的創(chuàng)建、組織和傳播階段中,不僅推動了UGC數量的快速增加,還加快了UGC傳播的速度、擴大了UGC傳播的廣度,導致數據處理面臨渠道分散、體量更大的問題,數據分析也更加多元和復雜,給UGC質量治理帶來了更大挑戰(zhàn)。另一方面,用戶參與UGC創(chuàng)建與傳播,在此過程中融入了自己的意志和智慧。由于UGC強調普通用戶的創(chuàng)建,受自身素養(yǎng)、能力、動機等因素的影響,用戶創(chuàng)建的UGC質量參差不齊。此外,UGC的數量、類型和增長速度遠遠超出了人們接收、理解和利用信息的能力范圍。處于UGC過載中的用戶,其認知能力和辨別能力都受到挑戰(zhàn),導致用戶對UGC質量的滿意度呈下降趨勢。人們在享受信息技術、互聯網絡快速發(fā)展成果的同時,也在承受低質量UGC帶來的困擾。用戶不得不花費更多的時間和精力來篩選信息,將大量的時間消耗在碎片化UGC上。如果不對UGC質量進行治理,任由大量低質量UGC泛濫,會嚴重影響網絡信息生態(tài),給監(jiān)管部門和用戶信息利用都帶來困擾。研究者和實踐領域的管理者都已經意識到了UGC存在的質量問題,并采取了一些方式、方法和手段進行UGC質量治理,但卻忽略了社交網絡用戶UGC行為與UGC質量之間的關聯關系。本書則立足于用戶行為與UGC質量的關聯,試圖從現有的UGC質量治理范式外找到新的治理理念。
1.1.2 研究意義
本書針對UGC質量問題進行研究,具有如下理論意義和現實意義。
(1)理論意義。以UGC為代表的社會化媒體想要保持高效運轉需要高質量的UGC。然而,UGC質量參差不齊,其形態(tài)、格式的多樣性及內容的動態(tài)性、實時性、大規(guī)模性對UGC質量控制提出了更高的要求。從理論研究來看,目前國內外學者雖然對UGC質量評價、質量控制措施和用戶行為等方面有較多的研究,但將用戶行為與UGC質量結合起來進行的研究還比較缺乏,且目前的UGC質量預測、評估與控制機制尚不能很好地解決UGC的質量問題。一方面,用戶的UGC創(chuàng)建、傳播的動機、行為會影響UGC的質量;另一方面,目前對UGC質量評價、質量控制和用戶行為的研究主要集中在如何豐富UGC和激勵高質量UGC創(chuàng)建方面,仍需要深入和拓展。本書基于用戶行為分析,把UGC的用戶行為和UGC內容結合起來,進行UGC質量實時預判與控制,探索UGC質量預判與控制的方法,提供一種UGC質量控制的新思路,有助于促進UGC理論的完善和發(fā)展。
。2)現實意義。對UGC進行質量治理,有助于監(jiān)控輿情、規(guī)范網絡秩序、發(fā)掘UGC價值。但從實際情況來看,海量的UGC中存在大量的垃圾內容和無用信息,嚴重影響UGC的價值實現。這些垃圾內容及無用信息產生和存在的根源之一在于用戶行為的不規(guī)范。進入Web2.0時代,用戶的信息行為變得越來越復雜,需要從用戶行為的角度,研究用戶行為對UGC質量的影響,探索UGC質量控制的新路徑。從用戶行為的角度研究UGC質量控制,一方面符合行為科學的理論與實踐,另一方面也是適應新一代網絡信息資源管理的需求,有助于UGC的良性發(fā)展和高效利用。
在大數據時代,用戶創(chuàng)建信息的情景、動機多樣復雜,如何把用戶行為和UGC質量關聯起來,從用戶行為視角探索UGC質量提升的途徑,營造和維護健康、清朗的網絡信息環(huán)境,幫助用戶更好地利用信息,是目前亟須解決的一個難題。本書在對當前UGC質量現狀進行分析的基礎上,結合數據挖掘和大數據分析方法挖掘用戶行為與UGC質量的關系,提出基于用戶行為的UGC質量預判模型,并通過實驗驗證所提出的UGC質量預判模型的有效性,提出用戶、平臺、政府等多方協(xié)同,共同提升UGC質量,共同營造清朗網絡空間的建議。
1.2 國內外研究現狀
UGC是用戶生成或者創(chuàng)建內容的總稱,通常指用戶將自己原創(chuàng)的內容通過平臺進行展示或者提供給其他用戶。經濟合作與發(fā)展組織在報告中描述了UGC的三個特征:“互聯網上公開可用的內容”“內容的創(chuàng)新性”“強調普通用戶的創(chuàng)作”(Vickery & Wunsch-Vincent,2007)。然而對UGC的研究,較難嚴格遵循這些特性。因此本書中討論的UGC傾向于更為廣義的UGC,包括以任何形式發(fā)表的由用戶創(chuàng)造的文字、圖片、視頻、音頻等內容,從行為上,把“創(chuàng)作”的外延也拓展到轉發(fā)、點贊等多種行為,把創(chuàng)作者也擴展到機構和專業(yè)人員。
UGC發(fā)軔于20世紀90年代,經歷了個人網站、論壇、博客、視頻網站、獨立社交網絡服務(Social Networking Service,SNS)的演進,現正朝微博、微信、短視頻等移動化、大眾化、融合化的新方向發(fā)展。隨著Web2.0的發(fā)展,國內外的UGC,無論是用戶規(guī)模、用戶活躍度,還是發(fā)展模式、盈利模式等,都已發(fā)展到一定程度。移動互聯網、物聯網、區(qū)塊鏈等新興互聯網技術的發(fā)展,使用戶可以隨時隨地借助手機、電腦、Pad等終端通過網絡創(chuàng)建、接收和共享信息,用戶創(chuàng)建信息行為已成為網絡信息資源生產過程中占主導地位的信息生產模式。然而,由于內容的創(chuàng)建以普通用戶為主導,UGC創(chuàng)建者的信息素養(yǎng)、創(chuàng)建動機、知識水平等均存在差異性,加之信息平臺存在利益趨向等問題,致使UGC的質量呈現出極大的不均衡性,給用戶的認知帶來很大負擔,影響了用戶對UGC的利用?v觀國內外的研究,研究者針對UGC質量展開了多層次多方位的研究,其中,UGC質量的評價、UGC質量的控制成為國內外學者們的關注熱點。
1.2.1 國外研究現狀分析
本書以TI=(ugc OR UGC OR CGC OR UCC OR 'user generated content' OR 'user created content' 'wikipedia' OR 'Generated Content' OR 'consumer generated content' OR 'online review' OR 'SOCIAL INFORMATION') AND TS=('quality')為檢索式,在Web of Science引文數據庫中選擇核心集進行檢索,共獲得相關文獻878篇。經數據清洗后,刪除不相關文獻25篇,最終獲得有效文獻853篇,其年度分布及論文累積數量如圖1.2、圖1.3所示,從一定程度上反映了該研究主題受關注程度的變化。將文獻導入CiteSpace 5.7進行關鍵詞分析,得到國外UGC質量研究關鍵詞圖譜(圖1.4),對圖1.4進行關鍵詞統(tǒng)計得到國外UGC質量研究TOP10關鍵詞統(tǒng)計表(表1.1)。