大數據技能競賽知識點解析與實踐
李輝, 張瑩, 盧興民主編
- 出版商: 機械工業
- 出版日期: 2023-06-01
- 定價: $594
- 售價: 7.0 折 $416
- 語言: 簡體中文
- 頁數: 372
- 裝訂: 平裝
- ISBN: 7111731123
- ISBN-13: 9787111731122
-
相關分類:
大數據 Big-data、MySQL、Data-mining
立即出貨 (庫存 < 3)
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
75折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$375 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書以大學生大數據技能競賽、“強國杯”大數據技術應用競賽為背景,
全面系統地講述了大數據技術的基本原理和應用。
本書共5章,主要介紹了Linux操作系統的常用命令和服務使用;
MySQL數據庫操作、數據操作管理、視圖、權限管理、備份與還原;
圍繞大數據框架講述了Hadoop技術、Hive數據倉庫等大數據組件架構的應用,
同時提供了故障排查、性能調優等平臺運維管理方案,數據採集存儲和統計分析;數據挖掘與可視化等內容。
目錄大綱
前言
實驗環境配置說明
第1章Linux操作系統
1.1 主機名配置
1.1.1 設置主機名
1.1.2 Hosts映射
1.2 防火牆配置與管理
1.2.1 防火牆操作命令
1.2.2 配置防火牆規則
1.3 時間同步
1.3.1 同步網絡時間
1.3.2 同步服務器時間
1.4 定時任務管理
1.5 SSH遠程訪問
1.5.1 SSH協議
1.5.2 SSH連接工具
1.6 軟件包管理
1.6.1 軟件配置
1.6.2 下載安裝軟件
思考與練習
第2章數據庫技術
2.1 MySQL數據庫
2.1.1 MySQL的安裝
2.1.2 數據庫操作管理
2.1.3 數據表操作管理
2.1.4 數據操作管理
2.1.5 視圖
2.1.6 權限管理
2.1.7 備份與還原
2.1.8 SQL優化
2.2 非關係型數據庫NoSQL
2.2.1 HBase列式數據庫
2.2.2 Redis數據庫
2.2.3 MongoDB文件數據庫
思考與練習
第3章大數據平臺技術
3.1 Hadoop分佈式大數據框架
3.1.1 搭建Hadoop偽分佈式集群
3.1.2 搭建Hadoop完全分佈式集群
3.1.3 命令行方式管理HDFS
3.1.4 使用開發工具連接Hadoop集群
3.1.5 Java API操作HDFS
3.1.6 分佈式計算框架之MapReduce
3.1.7 編寫MapReduce方法
3.1.8 配置Hadoop集群高可用(HA)
3.2 Hive數據倉庫
3.2.1 本地模式安裝Hive數據倉庫
3.2.2 Hive數據倉庫的常見屬性
3.2.3 Hive DDL操作
3.2.4 Hive DML操作
3.2.5 Hive中的數據查詢
3.2.6 Hive中的窗口函數
3.2.7 案例:國內主要城市房屋出租
情況統計分析
3.3 HBase數據庫
3.3.1 搭建HBase偽分佈式集群
3.3.2 HBase的Shell操作
3.3.3 HBase的Java API操作
3.3.4 使用HBase的過濾器
3.3.5 HBase與MapReduce的集成
3.3.6 HBase與Hive的集成
3.3.7 HBase與Sqoop的集成
3.4 Spark技術框架
3.4.1 集群安裝部署
3.4.2 Spark Shell
3.4.3 Spark SQL
3.4.4 Spark Streaming
3.4.5 Spark MLlib
3.4.6 Structured Streaming實時計算
3.5 大數據平臺運維與管理
3.5.1 故障排查
3.5.2 性能調優
3.6 大數據框架應用
3.6.1 協調框架:ZooKeeper
3.6.2 數據收集:Flume
3.6.3 數據傳輸:Sqoop
3.6.4 任務調度工具:Azkaban
思考與練習
第4章數據採集與分析
4.1 報表數據處理
4.1.1 數據預處理
4.1.2 數據分析
4.2 網絡信息獲取技術
4.2.1 HTTP基本原理
4.2.2 網頁組成
4.2.3 網絡請求
4.2.4 正則表達式
4.2.5 XPath解析
4.2.6 Beautiful Soup
4.2.7 數據存儲
4.3 數據統計分析
4.3.1 描述性分析
4.3.2 探索性分析
4.3.3 缺失值分析
4.3.4 方差分析
4.3.5 T檢驗
4.3.6 卡方檢驗
思考與練習
第5章數據挖掘與數據可視化
5.1 數據挖掘
5.1.1 線性回歸
5.1.2 邏輯回歸
5.1.3 支持向量機
5.1.4 樸素貝葉斯
5.1.5 決策樹
5.1.6 時間序列分析
5.1.7 關聯分析
5.1.8 K-Means聚類
5.1.9 主成分分析
5.2 數據可視化
5.2.1 報表可視化
5.2.2 Matplotlib可視化
5.2.3 Seaborn可視化
5.2.4 ECharts實現數據可視化
5.2.5 D3實現數據可視化
5.2.6 FineBI實現數據可視化
5.2.7 Tableau實現數據可視化
5.3 業務分析報告撰寫
5.3.1 明確背景與目的
5.3.2 尋找合適數據
5.3.3 數據分析與圖表
5.3.4 報告結論與建議
5.3.5 邏輯結構清晰
思考與練習
