關于我們
書單推薦
新書推薦
|
|
時間序列數(shù)據(jù)的特征表示、相似性度量及其應用研究
定 價:98 元
- 作者:李海林、郭崇慧
- 出版時間:2022/5/1
- ISBN:9787302603528
- 出 版 社:清華大學出版社
- 中圖法分類:O211.61
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:32開
本書以時間序列數(shù)據(jù)為研究對象,對時間序列數(shù)據(jù)的特征表示和相似性度量進行較為深入和系統(tǒng)的研究,講述了如何從數(shù)據(jù)特征的不同角度進行數(shù)據(jù)降維,結合設計相應的相似性度量方法實現(xiàn)時間序列數(shù)據(jù)挖掘,同時將相關的特征表示和相似性度量方法應用于文本主題、經(jīng)濟金融、情報分析和發(fā)動機參數(shù)等具體領域。全書分為 11章:第1章對研究的背景和現(xiàn)狀進行了分析,解釋了為什么要研究時間序列數(shù)據(jù)的特征表示和相似性度量。第2章至第6章從時間序列數(shù)據(jù)的不同視角出發(fā),深入淺出地介紹了新的時間序列數(shù)據(jù)特征表示和相似性度量等預處理方法。第7章到第10章以主題分析、股票預測、文獻分析、發(fā)動機參數(shù)特征識別和故障檢測為目標,將時間序列數(shù)據(jù)挖掘中的特征表示和相似性度量方法應用于解決具體行業(yè)中的相關管理科學問題。第11章對研究進行了總結,并提出了研究的創(chuàng)新和未來研究方向。 本書的研究內容主要涉及統(tǒng)計學、計算機科學、經(jīng)濟學和管理學等,適合從事經(jīng)濟金融、電子信息、生物醫(yī)學、工業(yè)與工程等工作的技術人員、管理人員或有志從事相關領域科學研究的本科生、研究生學習或參考。通過閱讀和學習本書,讀者可以較好地了解時間序列數(shù)據(jù)挖掘與傳統(tǒng)時間序列數(shù)據(jù)分析的不同,為今后的時間序列數(shù)據(jù)的相關研究奠定基礎。
本書特色 內容系統(tǒng)性 特征表示和相似性度量是時間序列數(shù)據(jù)挖掘過程中一項重要而又基礎的數(shù)據(jù)預處理工作,其質量和效率直接影響后期相關時 時間序列數(shù)據(jù)的特征表示、相似性度量及其應用研究間序列數(shù)據(jù)挖掘算法和模型的效果。本書從時間序列數(shù)據(jù)的不同 特點出發(fā),深人和系統(tǒng)地研究和分析其特征表示和相似性度量方法,并結合相應的數(shù)據(jù)挖掘任務進行實驗比較和分析,同時也將研 究成果應用于具體應用中,從時間序列數(shù)據(jù)視角更好地解決實際問題。 案例新穎性 本書對時間序列數(shù)據(jù)特征表示和相似性度量的方法有效性與先進性進行深人分析及研究,實驗過程中使用了大量的公共數(shù)據(jù) 集,使得實驗案例具有--定的代表性。同時,除了將特征表示和相似性度量方法應用于常見的金融股票數(shù)據(jù)外,還將它們應用于文 獻數(shù)據(jù)分析、文本主題分析和發(fā)動機參數(shù)檢測等與時間序列間接相關的新穎案例中,進而拓展了解決實際應用問題的理論和方法。
隨著社會經(jīng)濟和信息技術的發(fā)展 ,時間序列的數(shù)據(jù)量增長越來越快 ,相應地 ,利用數(shù)據(jù)挖掘技術在時間序列數(shù)據(jù)庫中發(fā)現(xiàn)潛在的有價值的信息和知識也備受關注 ,其研究成果已被成功地應用于經(jīng)濟、金融、電子信息、醫(yī)療衛(wèi)生、教育、工業(yè)和工程等領域。然而,時間序列數(shù)據(jù)的特征表示和相似性度量是時間序列數(shù)據(jù)挖掘任務中為基礎和關鍵的工作 ,其質量直接影響時間序列數(shù)據(jù)挖掘的結果。時間序列數(shù)據(jù)隨時間的推移而不斷增長 ,數(shù)據(jù)的高維、動態(tài)、不確定等特性阻礙了傳統(tǒng)數(shù)據(jù)挖掘技術性能的發(fā)揮。特征表示的主要目的是利用少量特征近似表示原始時間序列 ,起到有效降維的作用 ,進而提高數(shù)據(jù)挖掘任務的效率。相似性度量是測量時間序列之間差異性的方法 ,通常結合特征表示方法對時間序列之間的相似性進行快速、有效地度量 ,其度量結果可用于分類、聚類、相似性搜索和異常模式發(fā)現(xiàn)等時間序列數(shù)據(jù)挖掘任務中。本研究分別以等長和不等長的單變量時間序列為主要研究對象 ,探討利用不同的方法對這些時間序列數(shù)據(jù)進行特征表示和相似性度量 ,使得各種方法能更為完善和有效地運用于時間序列數(shù)據(jù)挖掘,并解決與時間序列挖掘任務相關的管理和應用問題 ,獲取潛在有價值的信息和知識。本書的主要內容如下。 (提出基于正交多項式回 1)從等長時間序列的整體特征出發(fā) ,歸系數(shù)特征表示的相似性度量方法。通過分析多項式項次數(shù)對時間序列整體形態(tài)擬合效果的影響 ,選取合適的特征系數(shù)反映時間序列的主要形態(tài)趨勢 ,提出更適合特征序列的相似性度量方法,并且在理論上證明其滿足下界性 ,提高特征表示和相似性度量在時間序列相似性搜索中的性能。 (2)針對分段聚合近似表示方法對等長時間序列進行特征表示時存在的問題 ,利用多維特征對等長時間序列進行特征表示 ,構造滿足下界性的相似性度量方法。通過對傳統(tǒng)分段聚合近似表示方法及其相似性度量方法滿足下界性的剖析 ,利用不同維度的特征來近似表示分段序列 ,分別提出了基于二維統(tǒng)計特征和基于二維形態(tài)特征的分段聚合近似方法 ,提高了傳統(tǒng)分段聚合近似方法在時間序列數(shù)據(jù)挖掘中的應用效率。同時 ,將分段序列的二維形態(tài)特征表示推廣到更高維形態(tài)特征表示 ,使得較高維數(shù)的分段特征表示方法在較大數(shù)據(jù)壓縮率的情況下 ,其距離度量函數(shù)的性能有所提高。
(3)以云模型理論為基礎對等長時間序列實現(xiàn)分段特征表示 ,提出了具有較高性能的相似性度量方法。利用云模型反映分段序列數(shù)據(jù)分布的不確定性 ,給出了云模型相似性度量函數(shù) ,實現(xiàn)云特征序列之間的相似性度量。雖然基于云模型的時間序列相似性度量方法不能滿足下界性 ,但它從局部和全局的角度來考慮時間序列的波動性和不確定性 ,具有較高的相似性度量質量 ,有效地提高了時間序列數(shù)據(jù)挖掘相關算法的性能。 (4)針對傳統(tǒng)動態(tài)時間彎曲方法度量不等長時間序列需要較高時間代價的問題 ,提出了兩種改良后的彎曲度量方法。首先 ,在權衡計算速度和度量精度的情況下 ,通過自適應快速分段線性表示對時間序列進行特征表示 ,再結合導數(shù)動態(tài)時間彎曲方法來快速、有效地對不等長時間序列進行彎曲度量 ,進而提出了基于分段線性近似和導數(shù)動態(tài)時間彎曲的時間序列相似性度量方法。其次,為解決動態(tài)時間彎曲方法帶來較大計算量的問題 ,通過縮小彎曲路徑的搜索范圍和提前終止計算彎曲路徑的策略 ,提高傳統(tǒng)動態(tài)時間彎曲方法在時間序列相似性搜索中的計算效率。此外 ,將動態(tài)時間彎曲用于度量變量之間的異步相關性問題 ,進而提出魯棒性較強的異步主成分分析方法 ,拓展了傳統(tǒng)主成分分析方法在時間序列數(shù)據(jù)特征表示和數(shù)據(jù)降維等方面的應用效果。 (5)時間序列數(shù)據(jù)特征表示與相似性度量方法在主題數(shù)據(jù)、融股票、期刊文獻數(shù)據(jù)和發(fā)動機參數(shù)等挖掘領域中的應用。首先 ,通過構建主題之間的共現(xiàn)時間序列數(shù)據(jù) ,使用復雜網(wǎng)絡方法來分析主題 ,提出共現(xiàn)時間序列數(shù)據(jù)聚類的主題網(wǎng)絡分析方法 ,用于提高主題分析質量。其次 ,針對金融市場中機構交易對股票市場中的散戶投資行為具有較強的誤導性的現(xiàn)象 ,提出了一種基于機構交易行為影響的趨勢預測方法 ,進而使時間序列數(shù)據(jù)挖掘技術有效地應用于金融股票數(shù)據(jù)的趨勢預測。再次 ,時間序列的動態(tài)時間彎曲度量方法對參考文獻來源期刊和引證文獻來源期刊的時間序列數(shù)據(jù)進行數(shù)值與趨勢的距離度量 ,從不同角度分析期刊文獻數(shù)據(jù)隨時間變化的情況 ,結合近鄰傳播聚類分析 ,驗證參考文獻來源期刊之間的相似性和引證文獻來源期刊之間的關系。文獻聚類分析結果有助于為期刊論文作者和編輯部工作人員提供關于參考文獻選擇和引用的相關參考意見 ,提升作者的科研水平和編輯部刊發(fā)論文的質量。另外 ,根據(jù)發(fā)動機性能參數(shù)時間序列數(shù)據(jù)的特性,利用新的時間序列特征表示和相似性度量方法來實現(xiàn)發(fā)動機性能參數(shù)的數(shù)據(jù)挖掘 ,進而有效地對發(fā)動機性能參數(shù)進行特征識別和故障檢測 ,給發(fā)動機設計過程中的知識發(fā)現(xiàn)增加了新的視角 ,為保障發(fā)動機的安全運行提供參考依據(jù)。 以上研究成果通過數(shù)值實驗檢驗了它們對不同類型時間序列數(shù)據(jù)進行特征表示和相似性度量方法的有效性 ,并且比較了它們在時間序列數(shù)據(jù)挖掘任務中提高相關算法的性能 ,進一步完善了時間序列數(shù)據(jù)挖掘中特征表示和相似性度量方法在理論技術與應用管理方面的研究。 本書特色 內容系統(tǒng)性 特征表示和相似性度量是時間序列數(shù)據(jù)挖掘過程中一項重要而又基礎的數(shù)據(jù)預處理工作 ,其質量和效率直接影響后期相關時間序列數(shù)據(jù)挖掘算法和模型的效果。本書從時間序列數(shù)據(jù)的不同特點出發(fā) ,深入和系統(tǒng)地研究和分析其特征表示和相似性度量方法,并結合相應的數(shù)據(jù)挖掘任務進行實驗比較和分析 ,同時也將研究成果應用于具體應用中 ,從時間序列數(shù)據(jù)視角更好地解決實際問題。 案例新穎性 本書對時間序列數(shù)據(jù)特征表示和相似性度量的方法有效性與先進性進行深入分析及研究 ,實驗過程中使用了大量的公共數(shù)據(jù)集,使得實驗案例具有一定的代表性。同時 ,除了將特征表示和相似性度量方法應用于常見的金融股票數(shù)據(jù)外 ,還將它們應用于文獻數(shù)據(jù)分析、文本主題分析和發(fā)動機參數(shù)檢測等與時間序列間接相關的新穎案例中 ,進而拓展了解決實際應用問題的理論和方法。 讀者對象 對于研究和使用計量經(jīng)濟模型的學者與管理者 ,可以拋開煩瑣的模型假設和檢驗等過程 ,克服時間序列數(shù)據(jù)分析中的回歸擬合模型的傳統(tǒng)思維束縛 ,嘗試從時間序列數(shù)據(jù)挖掘的視角來研究傳統(tǒng)計量經(jīng)濟模型不能發(fā)現(xiàn)或不能解決的研究問題。相信通過本書的學習 ,讀者會對時間序列數(shù)據(jù)分析有新的想法。 對于在統(tǒng)計學、計算機科學、經(jīng)濟學或管理學等領域從事關于時間序列數(shù)據(jù)分析和研究的行業(yè)工作者或有志從事相關領域科學研究的本科生、研究生 ,可以通過閱讀與學習本書 ,從特征表示和相似性度量等數(shù)據(jù)預處理的角度出發(fā) ,較為系統(tǒng)地了解時間序列數(shù)據(jù)挖掘算法和模型 ,逐步學會利用時間序列數(shù)據(jù)挖掘技術和方法來解決與時間序列數(shù)據(jù)相關的實際應用問題。
李海林 ,男,博士 ,教授 ,博士生導師 ,曾任華僑大學工商管理學院院長助理 ,信息管理系主任 ,教務處副處長 ,研究方向為數(shù)據(jù)科學和創(chuàng)新管理等 ;國家自然科學基金通訊評審專家 ,教育學位中心研究生學位論文評審專家 ,中國信息經(jīng)濟學會理事會理事 ,中國系統(tǒng)工程學會數(shù)據(jù)與知識專委會委員 ,泉州市信息化項目評審專家 ;在InformationSciences、Pat-ternRecognition、《系統(tǒng)工程理論與實踐》《科學學研究》和《情報學報》等國內外重要刊物 ,以及 SIGKDD、ICDM和PAKDD等國際數(shù)據(jù)挖掘會議上發(fā)表論文70余篇 ,其中大部分被 SSCI、 20多篇論文分別發(fā)表在運籌SCI和 EI收錄 ,學與管理科學、人工智能和應用數(shù)學等領域的 TOP期刊 ,近30篇論文發(fā)表在中科院 SCI和SSCI分區(qū) 1區(qū)和 2區(qū)期刊 ;主持 2項國家自然科學基金和 6項省部級項目 ,參與完成其他各類級科研項目 10余項 ;以作者身份獲福建省第十二屆社會科學優(yōu)秀成果獎二等獎 (政府獎 ),入選福建省 ABC高層次人才 、福建省 高校新世紀優(yōu)秀人才支持計劃 、福建省 高校杰出青年科研人才培育計劃 ,博士論文被評為遼寧省 優(yōu)秀博士學位論文 ,被評為泉州市第三層次人才 ,連續(xù)獲得兩屆華僑大學 學術英才 稱號。 郭崇慧 ,男,博士 ,教授 ,博士生導師 ,大連理工大學系統(tǒng)工程研究所所長 ,大數(shù)據(jù)與智能決策研究中心主任 ,大連市數(shù)據(jù)科學與知識管理重點實驗室主任 ,曾任管理科學與工程學院院長 ;中國系統(tǒng)工程學會常務理事 ,中國管理科學與工程學會常務理事 ,遼寧省數(shù)量經(jīng)濟學會常務理事 ,遼寧省運籌學會理事 ,遼寧省自動化學會理事 ,國家自然科學基金委創(chuàng)新研究群體學術骨干 ,《系統(tǒng)工程理論與實踐》和《系統(tǒng)工程與電子技術》編委 ; 2007年入選 遼寧省百千萬人才工程 人選 ,2011年入選教育 新世紀優(yōu)秀人才支持計劃 ;擔 2013年訪問悉尼科技大學量子計算與智能系統(tǒng)研究中心 ,任高級研究學者;擔任高級研究 2016年訪問新澤西州立大學羅格斯商學院,學者;主要研究方向為系統(tǒng)建模與優(yōu)化、數(shù)據(jù)挖掘與商務智能、決策理論與方法、知識管理;主持國家自然科學基金面上項目、國家軟科學研究計劃項目、中國博士后科學基金項目等,參與完成國家973重點基礎研究發(fā)展項目、國家高科技研究發(fā)展計劃863項目、國家自然科學基金重大國際合作研究項目、國家自然科學基金重點項目等科研項目10余項;在國內外學術期刊發(fā)表論文10余篇,其中SCI收錄30余篇,EI收錄60余篇;出版著作及教材6部,譯著1部。
第1章緒論1 1.1選題背景及研究意義1 1.1.1選題背景2 1.1.2研究意義4 1.2研究現(xiàn)狀和已有研究的不足之處7 1.2.1特征表示研究現(xiàn)狀8 1.2.2相似性度量研究現(xiàn)狀17 1.2.3已有研究的不足之處27 1.3本書研究內容和框架結構29 1.3.1研究內容30 1.3.2框架結構32 第2章基于正交多項式回歸系數(shù)的特征表示及相似性度量36 2.1正交多項式回歸系數(shù)特征表示37 2.2擬合效果分析38 2.3相似性度量40 2.4數(shù)值實驗45 2.4.1擬合誤差分析46 2.4.2下界緊湊性及數(shù)據(jù)剪枝能力47 2.4.3時間序列分類和聚類50 2.5本章小結53 第3章分段聚合特征表示及相似性度量55 3.1分段聚合近似56 3.2基于二維統(tǒng)計特征的分段聚合近似57 3.2.1分段聚合近似的下界性58 3.2.2線性統(tǒng)計特征59 3.2.3非線性統(tǒng)計特征62 3.2.4數(shù)值實驗63 3.3基于二維形態(tài)特征的分段符號聚合近似65 3.3.1形態(tài)特征符號聚合近似67 3.3.2相似性度量及算法描述71 3.3.3數(shù)值實驗73 3.4基于主要形態(tài)特征的分段聚合近似74 3.4.1主要形態(tài)特征表示75 3.4.2形態(tài)特征相似性度量80 3.4.3數(shù)值實驗82 3.5本章小結89 第4章時間序列分段云模型特征表示及相似性度量91 4.1云模型簡介92 4.2時間序列云模型特征表示95 4.2.1時間序列分段云近似96 4.2.2自適應分段云近似98 4.3云模型相似性度量100 4.3.1基于期望曲線的云模型相似度計算方法101 4.3.2基于邊界曲線的云模型相似度計算方法106 4.4基于云模型的時間序列相似性計算107 4.5實驗結果及分析108 4.5.1仿真實驗109 4.5.2協(xié)同過濾推薦實驗110 4.5.3時間序列分類分析112 4.5.4時間序列聚類分析114 4.6本章小結117 第5章不等長時間序列數(shù)據(jù)的彎曲距離度量118 5.1分段線性近似的導數(shù)動態(tài)時間彎曲度量118 5.1.1自適應分段線性表示120 5.1.2特征彎曲度量128 5.1.3數(shù)值實驗129 5.2高效動態(tài)時間彎曲相似性搜索方法133 5.2.1高效動態(tài)時間彎曲134 5.2.2相似性搜索方法137 5.2.3數(shù)值實驗140 5.3本章小結142 第6章時間序列數(shù)據(jù)的異步主成分分析144 6.1研究動機145 6.2主成分分析147 6.3異步主成分分析149 6.4實驗評估153 6.4.1模擬數(shù)據(jù)聚類153 6.4.2UCI和股票數(shù)據(jù)挖掘158 6.5本章小結161 第7章共現(xiàn)時間序列聚類的主題網(wǎng)絡分析163 7.1研究思路163 7.2基于Matrix Profile和社區(qū)檢測的時間序列聚類方法165 7.2.1相關性度量166 7.2.2網(wǎng)絡構建167 7.2.3社區(qū)檢測168 7.2.4實例與過程170 7.3基于同時段時序相似性的主題網(wǎng)絡聚類171 7.3.1主題關系定義172 7.3.2相關性度量173 7.3.3網(wǎng)絡構建與劃分174 7.4聚類結果與分析176 7.4.1滑動窗口構建網(wǎng)絡聚類結果與分析176 7.4.2平均分段構建網(wǎng)絡聚類結果與分析179 7.5本章小結181 第8章時間序列矩陣畫像的金融數(shù)據(jù)預測分析182 8.1問題分析182 8.2矩陣畫像相關理論185 8.3股票價格波動趨勢預測方法188 8.3.1機構交易行為知識庫188 8.3.2模式匹配191 8.3.3預測算法193 8.4實驗分析195 8.4.1數(shù)據(jù)收集與處理195 8.4.2預測結果評測標準196 8.4.3實例分析197 8.4.4實驗評估201 8.5本章小結207 第9章期刊文獻時間序列數(shù)據(jù)分析209 9.1研究動機209 9.2近鄰傳播聚類算法212 9.3數(shù)據(jù)來源與研究思路213 9.4參考文獻來源期刊分析214 9.4.1參考文獻來源期刊被引數(shù)值聚類分析215 9.4.2參考文獻來源期刊被引趨勢聚類分析218 9.5引證文獻來源期刊分析220 9.5.1引證文獻來源期刊被引數(shù)值聚類分析221 9.5.2引證文獻來源期刊被引趨勢聚類分析224 9.6本章小結226 第10章發(fā)動機參數(shù)時間序列數(shù)據(jù)特征分析與異常檢測228 10.1基于形態(tài)特征的發(fā)動機參數(shù)特征識別229 10.1.1數(shù)據(jù)來源229 10.1.2參數(shù)特征識別方法231 10.1.3數(shù)值實驗234 10.2基于統(tǒng)計特征的發(fā)動機故障檢測236 10.2.1不相似模式發(fā)現(xiàn)算法237 10.2.2基于非線性統(tǒng)計特征的異常檢測238 10.2.3數(shù)值實驗240 10.3本章小結242 第11章總結與展望244 11.1主要結論244 11.2主要創(chuàng)新點246 11.3研究展望249
|