我叫大數據

張偉洋,宮兆陽

相關主題

商品描述

本書第一章為讀者揭示了數據的魅力以及其在日常生活中的無處不在。隨後的章節詳細介紹了數據的成長、存儲和處理方式。從早期的磁帶和光盤,到現代的Hadoop、Spark和分布式系統,讀者將對大數據技術有一個全面的了解。中間章節著重於大數據在不同領域中的應用,如社交媒體、金融市場和電商,展示了數據如何被轉化為有價值的洞察和解決方案。同時,書中也詳述了數據處理和機器學習的方法,讓讀者了解到計算機是如何"思考"和從數據中"學習"的。後續章節則深入講解了大數據的采集、存儲和處理技術,為讀者呈現了大數據的後臺運行機制、架構原理等。從數據的采集、傳輸,到其如何被存儲、清洗和展現,每一個環節都至關重要。在大數據應用的最後部分,書中討論了其如何助力企業實現數字化轉型,為企業決策提供堅實的數據支撐。此外,也對數據治理進行了詳細的探討,強調了數據質量、安全和隱私的重要性。

目錄大綱

第 1 章 大家好,我叫大數據 / 001
1 我的成長歷程:從小小的石頭到壯大的字節 / 002
最初的我:原始部落中的計數石頭 / 002
我的成長軌跡:從小小的字節到龐大的數據宇宙 / 003
2 我為何這麼火? / 004
我的舞臺:從廚房計時到火箭發射 / 004
我的超能力:從預測天氣到做出決策 / 006
第 2 章 我的近代成長歷程 / 008
3 我的童年回憶:被遺忘的數據碎片 / 009
磁帶與光盤:早期的數據存儲 / 009
數據的碎片:數據格式的演變歷程 / 012
4 青澀的少年時期:積累的數據塊 / 016
數據庫的誕生:管理的需要 / 016
關系數據庫:數據的規整之家 / 018
對象數據庫:面向對象的存儲魔法 / 021
分布式數據庫:分而治之的大數據倉庫 / 025
SQL:與數據的對話 / 029
SQL 的不同版本:與我溝通的“方言”/ 031
NoSQL 與非結構化數據:自由的空間 / 033
現在的我:我已經這麼“大”了 / 035 我的與眾不同之處 / 035
Hadoop:我身後的大象 / 038 流處理:快速做出反應 / 039 Spark:閃電般的速度 / 042 分布式系統:多個“我”合作 / 043
6 記憶的寶庫:數據庫是我存儲回憶的地方 / 047 安全的保險櫃:確保數據不丟失 / 047 快速檢索數據:讓查詢變得飛快 / 050
第 3 章 你知道我每天都吃些什麼嗎? / 055
7 早餐:你的點贊和分享 / 056 社交媒體的數據流:實時感受你的喜怒哀樂 / 056 每一個點擊、每一次滑動:深藏在用戶行為背後的無盡寶藏 / 058
8 午餐:各個公司的交易記錄 / 060 金融市場的脈搏:股票與貨幣 / 060 商業的核心:交易與客戶關系 / 063
9 晚餐:你們的網購和搜索歷史 / 065 購物車裏的秘密:推薦系統背後 / 065 搜索的力量:廣告與優化 / 068
第 4 章 我是如何思考的? / 070
10 算法的基石:邏輯與數學是我思考的工具 / 071 邏輯結構:算法的骨架 / 071
【示例】排序算法 / 072 數學工具:算法的血肉 / 074
【示例】基於邏輯與數學實現一個電影推薦系統 / 076
11 深度思考:深度學習讓我變得更像人類 / 080 神經網絡:算法的“大腦”/ 080
實際應用:圖像識別 / 081
12 搜索算法:簡單而強大 / 083 線性搜索:簡單而直接 / 083
二分搜索:高效的搜索方法 / 084
13 路徑規劃算法:兩點之間的最短路徑 / 088 路徑規劃算法的過程 / 088
【示例】最短路徑探險 / 089
14 持續學習:在線學習讓我不斷進化 / 092 什麼是在線學習? / 092
為什麼需要在線學習? / 092
在線學習的實際應用 / 093
第 5 章 跟我去健身吧! / 095
15 熱身動作:首先清洗“身體”/ 096 錯誤與異常:數據清洗的藝術 / 096 數據轉換:標準化與歸一化 / 099 清洗工具:流行的清洗技術與軟件 / 103
16 體能訓練:深度挖掘 / 109關聯分析:發現數據之間的聯系 / 109 【示例】顧客購物籃數據關聯分析 / 109
聚類分析:發現數據中的自然分組 / 112 示例:客戶群體聚類分析 / 113 頻繁模式挖掘:發現常見模式 / 115
【示例】找出文章中的高頻詞 / 116 分類分析:將數據分為不同的類別 / 118
【示例】使用決策樹模型預測客戶流失 / 121 【示例】使用隨機森林模型預測客戶貸款違約 / 124
挖掘技術:常用的數據分析技術與流程 / 128 【示例】使用 Matplotlib 進行數據可視化 / 130
17 心肺鍛煉:解讀“心跳”數據 / 134
【示例】使用 Python 繪制時間序列圖 / 134 【示例】使用移動平均方法統計數據的長期趨勢 / 137 【示例】使用 ARIMA 模型預測未來銷售額 / 140
心跳圖:時序數據與異常檢測 / 142 【示例】心跳數據監測 / 142
專家解讀:數據科學家是如何解讀數據的 / 144
第 6 章 數據治理:保護我,讓我更健康 / 147
18 我的身份證:數據目錄和元數據 / 148 數據字典:定義與約束 / 148
元數據的守護:跟蹤數據的來源與變化 / 15019 我的護衛:數據加密先生 / 153 數據加密與數據解密的基本原理 / 153 對稱加密與非對稱加密 / 154 安全的保障:防止數據泄露的措施 / 157
第 7 章 介紹我的好朋友們 / 161
20 我的學霸朋友:機器學習 / 162 小明的學習日誌 1:模型的訓練與測試 / 162 小明的學習日誌 2:模型部署與監控 / 169 小明的實踐場:機器學習的應用場景 / 171
21 我的鄰居:雲計算小紅 / 173 小紅的雲屋:數據存儲與處理的新時代 / 173 雲上的合作:我與雲的互動 / 178
22 我的技術達人:自然語言處理小華 / 181 小華的語言天賦:文本處理與情感分析 / 181 小華的應用場景:聊天機器人與翻譯 / 185
23 我的創意夥伴:計算機視覺小強 / 188 小強的視覺技能:圖像識別與圖像生成 / 188 語義分割:從像素級別理解圖像 / 197
3D 視覺:從二維圖像到三維世界的探索 / 200 小強的應用場景:自動駕駛與智能監控 / 201
R-CNN、Fast R-CNN 和 Faster R-CNN: 目標檢測的進化之路 / 203第 8 章 我的語音夥伴:語音識別與合成 / 210
24 語音識別的基本原理 / 211 聲音的數字化處理:從聲音到數據 / 211 語音信號處理技術:拆解聲音的秘密 / 213
25 語音識別的常用算法 / 220 隱馬爾可夫模型(HMM):語音識別的老將 / 221 深度神經網絡(DNN):賦予語音識別新的生命 / 224 循環神經網絡(RNN):記住你的每一句話 / 226 端到端語音識別模型:一條龍服務 / 229
26 語音合成的基本原理 / 231 文本分析與處理:從文字到聲音 / 231 神經網絡語音合成技術 / 232 智能語音助手的實現流程 / 234
第 9 章 我與區塊鏈和物聯網的故事 / 237
27 我與區塊鏈的融合 / 238 區塊鏈基礎:去中心化與數據透明 / 238 我與區塊鏈聯手:數據存儲與可信計算 / 240
28 我與物聯網 / 244
物聯網設備:數據收集的前沿 / 244 物聯網設備的工作原理 / 245 傳感器:物聯網的感覺器官 / 247 物聯網通信協議:設備之間的語言 / 248 我在物聯網中的應用:智能家居與智慧城市 / 252