社會(huì)化媒體情感挖掘與信息傳播是人工智能、數(shù)據(jù)挖掘、自然語(yǔ)言處理、傳播學(xué)、情報(bào)學(xué)等多學(xué)科交叉研究領(lǐng)域之一,對(duì)網(wǎng)絡(luò)輿情的預(yù)警、分析、監(jiān)測(cè)和管理等具有重要意義。本書系統(tǒng)地介紹了社會(huì)化媒體情感挖掘與信息傳播的主要思想、理論及方法,特別是社會(huì)化媒體語(yǔ)料的獲取及預(yù)處理、中文新詞發(fā)現(xiàn)、情感傾向性分析、多級(jí)情感分類、社會(huì)化媒體信息網(wǎng)絡(luò)等。除緒論外,每章介紹一個(gè)主題,從實(shí)際需求或問(wèn)題出發(fā),由淺入深,闡明思想,理論結(jié)合實(shí)踐,便于讀者掌握社會(huì)化媒體情感挖掘與信息傳播理論與方法的實(shí)質(zhì),學(xué)以致用。
本書可作為社會(huì)化媒體處理、情感分析、信息傳播等專業(yè)的科研人員、管理人員的參考書,也可作為高等院校相關(guān)課程的教學(xué)用書。
李慧,女,首都師范大學(xué)副教授,碩士生導(dǎo)師,主要研究方向?yàn)槿斯ぶ悄、自然語(yǔ)言處理、數(shù)據(jù)挖掘等。2005年7月于中國(guó)科學(xué)院自動(dòng)化研究所獲得工學(xué)博士學(xué)位,2005.11-2008.10年在中國(guó)科學(xué)院聲學(xué)研究所博士后流動(dòng)站做博士后研究工作。以獨(dú)立作者在國(guó)內(nèi)外學(xué)術(shù)期刊和國(guó)際主流學(xué)術(shù)會(huì)議上發(fā)表論文20余篇,主編/參編專著、教材6本,申請(qǐng)發(fā)明專利1項(xiàng),獲得軟件著作權(quán)1項(xiàng);作為課題負(fù)責(zé)人先后完成國(guó)家自然科學(xué)基金面上項(xiàng)目1項(xiàng)、國(guó)家社會(huì)科學(xué)基金項(xiàng)目2項(xiàng)、中國(guó)博士后科學(xué)基金1項(xiàng)、北京市人才培養(yǎng)資助項(xiàng)目1項(xiàng)、北京市屬高等學(xué)校人才強(qiáng)教深化計(jì)劃項(xiàng)目1項(xiàng)、北京市教育委員會(huì)科技計(jì)劃面上項(xiàng)目1項(xiàng),作為學(xué)術(shù)骨干參加了多項(xiàng)國(guó)家自然科學(xué)基金項(xiàng)目、科技部973項(xiàng)目、863項(xiàng)目,獲得“2006年度中國(guó)科學(xué)院王寬誠(chéng)博士后工作獎(jiǎng)勵(lì)基金”。
第1章緒論1
1.1社會(huì)化媒體的客觀信息挖掘1
1.1.1社會(huì)網(wǎng)絡(luò)分析1
1.1.2社會(huì)化媒體信息傳播2
1.2社會(huì)化媒體的主觀信息挖掘3
1.2.1社會(huì)化媒體情感挖掘4
1.2.2情感分析評(píng)測(cè)會(huì)議7
1.2.3語(yǔ)料庫(kù)資源8
1.3社會(huì)化媒體的應(yīng)用研究9
第2章社會(huì)化媒體語(yǔ)料的獲取及預(yù)處理12
2.1語(yǔ)料的自動(dòng)獲取13
2.1.1基于網(wǎng)絡(luò)爬蟲的半結(jié)構(gòu)化語(yǔ)料自動(dòng)獲取13
2.1.2基于Web API的半結(jié)構(gòu)化語(yǔ)料自動(dòng)獲取方法20
2.1.3基于模擬瀏覽器的語(yǔ)料自動(dòng)獲取方法22
2.2語(yǔ)料預(yù)處理24
2.3情感詞典25
2.3.1基礎(chǔ)詞典26
2.3.2修飾詞典28
2.3.3情感詞典的自動(dòng)構(gòu)建29
2.4中文分詞34
2.4.1中文分詞方法35
2.4.2中文分詞工具39
2.4.3中文分詞研究的基本問(wèn)題40
2.5句法分析42
2.5.1句法分析語(yǔ)法體系43
2.5.2句法分析方法46
2.5.3中文句法分析工具48
第3章中文新詞發(fā)現(xiàn)50
3.1中文新詞51
3.1.1新詞的定義與特點(diǎn)51
3.1.2新詞的構(gòu)詞特性51
3.2中文新詞發(fā)現(xiàn)技術(shù)52
3.2.1新詞發(fā)現(xiàn)的難點(diǎn)53
3.2.2候選新詞提取53
3.2.3垃圾字串過(guò)濾58
3.2.4評(píng)價(jià)指標(biāo)60
3.3基于迭代的新詞發(fā)現(xiàn)算法61
3.3.1重復(fù)模式抽取61
3.3.2重復(fù)模式統(tǒng)計(jì)特征計(jì)算62
3.3.3基于迭代的新詞發(fā)現(xiàn)的實(shí)例64
3.4基于N-Gram的新詞發(fā)現(xiàn)算法68
3.4.1候選詞抽取68
3.4.2算法思路69
3.4.3基于N-Gram的新詞發(fā)現(xiàn)的實(shí)例70
第4章詞語(yǔ)級(jí)情感傾向性分析78
4.1候選情感詞提取78
4.1.1基準(zhǔn)種子詞的選取78
4.1.2詞語(yǔ)相似度計(jì)算79
4.1.3候選詞的抽取及過(guò)濾81
4.2詞語(yǔ)情感強(qiáng)度計(jì)算82
4.2.1基于詞典的詞語(yǔ)情感強(qiáng)度計(jì)算82
4.2.2基于統(tǒng)計(jì)的詞語(yǔ)情感強(qiáng)度計(jì)算82
4.3評(píng)價(jià)指標(biāo)85
4.4融合HowNet和PMI的情感傾向性計(jì)算87
4.4.1算法思想87
4.4.2融合HowNet和PMI的詞語(yǔ)情感傾向性分析的實(shí)例88
第5章句子/篇章級(jí)情感傾向性分析92
5.1情感傾向性分析算法92
5.1.1基于情感詞典和規(guī)則的情感傾向性分析92
5.1.2基于機(jī)器學(xué)習(xí)的情感傾向性分析93
5.2基于詞典和規(guī)則的情感傾向性分析100
5.2.1基于基礎(chǔ)情感詞典的情感傾向性分析100
5.2.2基于規(guī)則和多部情感詞典的情感傾向性分析101
5.3基于句法和規(guī)則集的情感傾向性分析104
5.3.1句型和句間關(guān)系規(guī)則105
5.3.2程度修飾和否定修飾規(guī)則111
5.3.3文本情感值計(jì)算117
5.4句子級(jí)/篇章級(jí)情感傾向性分析的實(shí)例118
5.4.1實(shí)驗(yàn)設(shè)置118
5.4.2實(shí)驗(yàn)結(jié)果分析118
第6章社會(huì)化媒體文本的多級(jí)情感分析126
6.1基于情感詞典和規(guī)則的多級(jí)情感分析126
6.2基于機(jī)器學(xué)習(xí)的多級(jí)情感分析128
6.2.1特征選擇128
6.2.2情感分類模型129
6.3融合類序列規(guī)則和機(jī)器學(xué)習(xí)的多級(jí)情感分析131
6.3.1關(guān)聯(lián)規(guī)則132
6.3.2社會(huì)化媒體語(yǔ)料中挖掘類序列規(guī)則144
6.3.3社會(huì)化媒體語(yǔ)料的情感分類145
6.4社會(huì)化媒體文本多級(jí)情感分析的實(shí)例147
6.4.1實(shí)驗(yàn)設(shè)置147
6.4.2實(shí)驗(yàn)結(jié)果分析148
第7章社會(huì)化媒體信息網(wǎng)絡(luò)160
7.1復(fù)雜網(wǎng)絡(luò)160
7.1.1復(fù)雜網(wǎng)絡(luò)的拓?fù)鋮?shù)161
7.1.2復(fù)雜網(wǎng)絡(luò)的拓?fù)涮匦?65
7.2情感詞共現(xiàn)網(wǎng)絡(luò)168
7.2.1情感詞共現(xiàn)網(wǎng)絡(luò)的構(gòu)建168
7.2.2情感詞共現(xiàn)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)170
7.3媒體信息傳播網(wǎng)絡(luò)177
7.3.1媒體信息傳播網(wǎng)絡(luò)的構(gòu)建177
7.3.2媒體信息傳播網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)178
7.3.3媒體信息傳播網(wǎng)絡(luò)的用戶互動(dòng)行為181
7.4基于拓?fù)鋭?shì)的關(guān)鍵用戶識(shí)別188
7.4.1節(jié)點(diǎn)重要度評(píng)估189
7.4.2關(guān)鍵用戶識(shí)別194
7.4.3用戶角色劃分201