QQ在線客服
免費咨詢熱線
400-615-1233
工作時間-工作日
8:30-17:30

Spark編程基礎及項目實踐

  • 類  別:大數(shù)據(jù)與云計算
  • 書  名:Spark編程基礎及項目實踐
  • 主  編:李國輝 時瑞鵬
  • 定  價:45
  • 開  本:16開
  • 印刷方式:雙色
  • 頁  數(shù):228
  • 時  間:2020年4月
  • 出  版  社:北京郵電大學出版社
  • 書  號:978-7-5635-6018-9

內(nèi)容摘要

        本書介紹了Spark編程的基礎知識。全書共8個項目,內(nèi)容包括Spark與大數(shù)據(jù)、Scala語言基礎、Spark的設計與運行原理、RDD編程實踐、Spark SQL實踐、Spark Streaming、Spark圖計算和Spark MLlib。
        本書適合作為Spark編程基礎課程的教材,也可供廣大大數(shù)據(jù)學習愛好者參考使用。

目錄

項目1 Spark與大數(shù)據(jù)
 任務1 認識大數(shù)據(jù)技術(shù)
  1.1.1 大數(shù)據(jù)技術(shù)概述
  1.1.2 大數(shù)據(jù)時代面臨的挑戰(zhàn)
  1.1.3 大數(shù)據(jù)的解決方案:Hadoop生態(tài)系統(tǒng)
 任務2 初識Spark
  1.2.1 Spark的起源
  1.2.2 Spark的特點
  1.2.3 Spark生態(tài)系統(tǒng)BDAS
  1.2.4 Spark的應用場景
 任務3 搭建Spark環(huán)境
  1.3.1 Spark集群所需軟件的下載
  1.3.2 搭建單機版環(huán)境
  1.3.3 搭建單機偽分布式環(huán)境
  1.3.4 搭建完全分布式環(huán)境
項目2 Scala語言基礎
 任務1 Scala簡介
  2.1.1 Scala的特性
  2.1.2 Scala的安裝
  2.1.3 運行Scala程序
 任務2 Scala語法基礎
  2.2.1 數(shù)據(jù)類型
  2.2.2 變量
  2.2.3 操作符
  2.2.4 條件語句
  2.2.5 循環(huán)控制
  2.2.6異常處理
 任務3 Scala的數(shù)據(jù)結(jié)構(gòu)
  2.3.1 數(shù)組
  2.3.2 Map
  2.3.3 List
  2.3.4 Tuple
  2.3.5 Set
 任務4 Scala面向?qū)ο蠹夹g(shù)
  2.4.1 類和對象
  2.4.2 函數(shù)式
  2.4.3 模式匹配
  2.4.4 類型系統(tǒng)
  2.4.5 隱式轉(zhuǎn)換
  2.4.6 文件操作
 實訓 學生信息查詢
項目3 Spark的設計與運行原理
 任務1 Spark運行架構(gòu)
  3.1.1 Spark架構(gòu)設計
  3.1.2 Spark運行流程
 任務2 Spark工作機制
  3.2.1 Spark內(nèi)存管理
  3.2.2 Spark容錯機制
  3.2.3 Spark監(jiān)控管理
項目4 RDD編程實踐
 任務1 RDD編程基礎
  4.1.1 RDD創(chuàng)建
  4.1.2 RDD操作
 任務2 RDD應用——學生成績分析
  4.2.1 創(chuàng)建RDD
  4.2.2 查找每門課程成績排名前3的同學
  4.2.3 輸出單科成績?yōu)?00分的學生ID
 任務3 持久化與數(shù)據(jù)分區(qū)
  4.3.1 持久化
  4.3.2 數(shù)據(jù)分區(qū)
項目5 Spark SQL實踐
 任務1 初識Spark SQL
  5.1.1 Spark SQL的前世
  5.1.2 Spark SQL架構(gòu)
  5.1.3 Spark SQL的優(yōu)勢
 任務2 DataFrame基礎操作
  5.2.1 創(chuàng)建DataFrame對象
  5.2.2 DataFrame查看數(shù)據(jù)
  5.2.3 DataFrame查詢操作
  5.2.4 DataFrame輸出操作
項目6 Spark Streaming
 任務1 初識Spark Streaming
  6.1.1 Spark Streaming概述
  6.1.2 Spark Streaming的運行原理
  6.1.3 Spark Streaming快速體驗案例
 任務2 理解Spark Streaming
  6.2.1 DStream簡介
  6.2.2 DStream接收輸入源方法
  6.2.3 DStream轉(zhuǎn)換操作
  6.2.4 DStream窗口操作
  6.2.5 DStream輸出操作
 任務3 Spark Streaming實戰(zhàn)
  6.3.1 統(tǒng)計本地文本單詞個數(shù)
  6.3.2 有狀態(tài)操作累計統(tǒng)計單詞個數(shù)
  6.3.3 windows劃窗統(tǒng)計熱搜詞
項目7 Spark圖計算
 任務1 認識Spark GraphX
  7.1.1 圖的基本概念
  7.1.2 圖計算的應用
  7.1.3 GraphX的基礎概念
  7.1.4 GraphX的屬性圖
 任務2 GraphX常用圖操作
  7.2.1 圖的創(chuàng)建操作
  7.2.2 圖獲取屬性的操作
  7.2.3 圖轉(zhuǎn)換屬性的操作
  7.2.4 圖結(jié)構(gòu)轉(zhuǎn)換操作
  7.2.5 圖的關聯(lián)操作
  7.2.6 圖的近鄰聚合操作
 任務3 Spark GraphX實戰(zhàn)
  7.3.1 Spark GraphX編程入門實戰(zhàn)
  7.3.2 PageRank查找最重要用戶名單
項目8 Spark MLlib
 任務1 初識機器學習
  8.1.1 機器學習的概念
  8.1.2 機器學習的分類
  8.1.3 MLlib數(shù)據(jù)類型
  8.1.4 MLlib基本統(tǒng)計實踐
 任務2 特征提取和轉(zhuǎn)換
  8.2.1 特征提取
  8.2.2 常用特征轉(zhuǎn)換
  8.2.3 特征選擇
 任務3 MLlib常用算法實戰(zhàn)——決策樹預測
參考文獻

主編信息

李國輝,天津職業(yè)大學副教授。

相關圖書