本書作為Spark的入門書,從Spark核心編程語言Scala講起,涵蓋當(dāng)前Spark主流的開發(fā)組件。以實操為主,深入講解每一個操作步驟,包括SparkRDD離線數(shù)據(jù)處理、SparkSQL快速結(jié)構(gòu)化數(shù)據(jù)處理、SparkStreaming實時數(shù)據(jù)處理,同時包括案例講解、源碼剖析、常用Shell命令和JavaAPI詳解。即
本書系統(tǒng)地講解了大數(shù)據(jù)處理常用技術(shù),具體包括大數(shù)據(jù)處理架構(gòu)Hadoop、分布式文件系統(tǒng)HDFS、MapReduce編程模型、分布式數(shù)據(jù)庫Hbase、NoSQL數(shù)據(jù)庫、Spark分布式內(nèi)存計算、MapReduce應(yīng)用開發(fā)、SparkSQL編程、數(shù)據(jù)可視化。本書編寫特色理論與具體操作相結(jié)合,較低基礎(chǔ)入門大數(shù)據(jù)技術(shù)。讀者對象
本書按照處理數(shù)據(jù)的邏輯順序和習(xí)慣,從數(shù)據(jù)的整理開始入手。從數(shù)據(jù)的抽樣開始,介紹了傳統(tǒng)統(tǒng)計的抽樣理論,并進(jìn)一步探討大數(shù)據(jù)樣本的代表性問題。并且通過具體案例向讀者介紹整個數(shù)據(jù)探索性分析的主要步驟。然后是數(shù)據(jù)的展示技術(shù),也就是常說的數(shù)據(jù)可視化,從數(shù)據(jù)的類型以及展示的內(nèi)容不同,分別介紹了單變量和多變量數(shù)據(jù)的多種圖示方法,數(shù)據(jù)的
本書以計算機(jī)控制技術(shù)在智能制造自動化生產(chǎn)線中的應(yīng)用為核心,以培養(yǎng)學(xué)生專業(yè)的職業(yè)素養(yǎng)、完備的理論知識、扎實的實踐操作技能和過硬的思政素質(zhì)為目標(biāo),在工業(yè)以太網(wǎng)技術(shù)、工業(yè)機(jī)器人技術(shù)、智能視覺識別技術(shù)、PLC技術(shù)和嵌入式觸摸屏技術(shù)應(yīng)用的基礎(chǔ)上,按照工業(yè)產(chǎn)品智能制造過程規(guī)范化和系統(tǒng)化的思想進(jìn)行課程開發(fā)。 全書主要包括四大部分內(nèi)
本書分7個單元。內(nèi)容包括:Web數(shù)據(jù)可視化概述、新能源汽車大數(shù)據(jù)可視化監(jiān)測平臺、Web基礎(chǔ)、前端框架、數(shù)據(jù)可視化設(shè)計基礎(chǔ)、數(shù)據(jù)可視化整合、新能源汽車數(shù)據(jù)大屏。
這本書的目的是幫助所有人通過R使用ApacheSpark。第1章~第5章,簡單地介紹了如何大規(guī)模執(zhí)行數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)項目。第6~9章介紹了使用Spark進(jìn)行集群計算中令人激動的基本概念。第10章~第13章涵蓋一些高級主題,包括分布式R、Streaming和社區(qū)貢獻(xiàn)等。
《大數(shù)據(jù)處理:從采集到可視化》共分為9章,章數(shù)據(jù)采集,主要介紹了大數(shù)據(jù)的概念、類型及其特征,常見的數(shù)據(jù)采集方法;第2章數(shù)據(jù)清洗,主要討論數(shù)據(jù)質(zhì)量的維度,數(shù)據(jù)可能存在的質(zhì)量問題,常見的數(shù)據(jù)清洗方法;第3章數(shù)據(jù)ETL,重點介紹了MGO方法;第4章數(shù)據(jù)存儲,主要介紹了大數(shù)據(jù)時代的一些主流數(shù)據(jù)存儲平臺和相關(guān)技術(shù);第5章回歸算法
《大數(shù)據(jù)計算機(jī)基礎(chǔ)(第2版)/大數(shù)據(jù)分析統(tǒng)計應(yīng)用叢書》是中國人民大學(xué)、北京大學(xué)、中國科學(xué)院大學(xué)、中央財經(jīng)大學(xué)、首都經(jīng)濟(jì)貿(mào)易大學(xué)五所高校聯(lián)合培養(yǎng)大數(shù)據(jù)分析碩士實驗班的計算機(jī)基礎(chǔ)教材,目標(biāo)是培養(yǎng)學(xué)生掌握大數(shù)據(jù)分析處理必備的計算機(jī)基礎(chǔ)知識與技能。
l數(shù)據(jù)倉庫、大數(shù)據(jù)、數(shù)據(jù)科學(xué)的簡單介紹。l了解企業(yè)建立數(shù)據(jù)湖的各種途徑。l探索如何構(gòu)建自助服務(wù)模型,以及如何讓分析師便捷訪問數(shù)據(jù)的最佳實踐。l使用不同的方法來構(gòu)建數(shù)據(jù)湖。l了解不同行業(yè)專家實現(xiàn)數(shù)據(jù)湖的方法。
這是一個大數(shù)據(jù)爆發(fā)的時代。面對信息的激流,多元化數(shù)據(jù)的涌現(xiàn),大數(shù)據(jù)已經(jīng)為個人生活、企業(yè)經(jīng)營,甚至國家與社會的發(fā)展都帶來了機(jī)遇和挑戰(zhàn),大數(shù)據(jù)已經(jīng)成為IT信息產(chǎn)業(yè)中最具潛力的藍(lán)海。“大數(shù)據(jù)導(dǎo)論”是一門理論性和實踐性都很強(qiáng)的課程。本書是為高等職業(yè)院校大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)“大數(shù)據(jù)導(dǎo)論”課程全新設(shè)計改編的,是一本具有豐富實踐特色