Bad Data 技術手冊 (Bad Data Handbook: Cleaning Up The Data So You Can Get Back To Work)
Q. Ethan McCallum 著、吳曜撰 譯
- 出版商: 歐萊禮
- 出版日期: 2013-09-12
- 定價: $480
- 售價: 7.9 折 $379
- 語言: 繁體中文
- 頁數: 264
- ISBN: 9862768959
- ISBN-13: 9789862768952
-
相關分類:
大數據 Big-data、Data-mining
- 此書翻譯自: Bad Data Handbook: Cleaning Up The Data So You Can Get Back To Work (Paperback)
立即出貨 (庫存 > 10)
買這商品的人也買了...
-
JavaScript 設計模式 (JavaScript Patterns)$480$379 -
精通正規表達式, 3/e (Mastering Regular Expressions, 3/e)$780$616 -
ASP.NET 4.5 專題實務 [I]-C# 入門實戰篇$780$616 -
無瑕的程式碼 - 敏捷軟體開發技巧守則 (Clean Code: A Handbook of Agile Software Craftsmanship)$580$452 -
超圖解 Arduino 互動設計入門 (附 Arduino UNO R3 開發板)$1,130$961 -
Arduino UNO R3 開發板(副廠相容版)附傳輸線$400$380 -
易讀程式之美學-提升程式碼可讀性的簡單法則 (The Art of Readable Code)$480$379 -
搞懂 NoSQL 的 15 堂課 (NoSQL Distilled 中文版) (NoSQL Distilled: A Brief Guide to the Emerging World of Polyglot Persistence)$360$284 -
社群網站的資料探勘(Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites)$580$458 -
Binary Hacks -- 駭客秘傳技巧一百招$580$458 -
Effective JavaScript 中文版 | 駕馭 JavaScript 的 68 個具體作法 (Effective JavaScript: 68 Specific Ways to Harness the Power of JavaScript)$450$356 -
眼球運動視力鍛鍊-只要每天 5 分鐘,不可思議的眼肌鍛鍊法$349$297 -
無瑕的程式碼 番外篇-專業程式設計師的生存之道 (The Clean Coder: A Code of Conduct for Professional Programmers)
$360$281 -
駕馭大數據-從海量資料中挖掘無限商機 (Taming The Big Data Tidal Wave: Finding Opportunities in Huge Data Streams with Advanced Analytics)$360$284 -
精準預測:如何從巨量雜訊中,看出重要的訊息?(The Signal and the Noise: Why So Many Predictions Fail — but Some Don't)$500$425 -
挑戰大數據-Facebook、Google、Amazon 怎麼處理 Big Data?用 NoSQL 搞定每年 100 億顆硬碟資料$580$493 -
Make: Electronics 圖解電子實驗專題製作 (MAKE: Electronics: Learning Through Discovery)$580$458 -
無瑕的程式碼-敏捷軟體開發技巧守則 + 番外篇-專業程式設計師的生存之道 (雙書合購)$940$700 -
透視 C語言指標-深度探索記憶體管理核心技術 (Understanding and Using C Pointers)$480$379 -
精通 Python|運用簡單的套件進行現代運算 (Introducing Python: Modern Computing in Simple Packages)$780$616 -
$505圖像處理、分析與機器視覺, 4/e (Image Processing, Analysis, and Machine Vision, 4/e) -
資料視覺化|使用 Python 與 JavaScript (Data Visualization with Python and JavaScript: Scrape, Clean, Explore & Transform Your Data)$680$537 -
$505深度學習之 TensorFlow:入門、原理與進階實戰 -
Deep Learning 2|用 Python 進行自然語言處理的基礎理論實作$680$537 -
機器學習工程師面試全破解:嚴選 124道 AI 演算法決勝題完整剖析$650$507
商品描述
<內容簡介>
什麼是壞資料?有些人認為它是一個技術性的現象,如遺失值或是格式不對的記錄,但壞資料其實不只如此。資料專家Q. Ethan McCallum邀請了資料領域中,具有不同身分,包含公司執行長、政府官員、科學家、大學教授、程式設計師的19位專家,分享他們處理壞資料問題的方法與心得。
從有問題的儲存、貧乏的表述到錯誤的政策,造成壞資料有許多的可能。總結來說,壞資料就是會阻礙你的資料。本書提供一些有效的解決方法。
本書涵蓋許多主題,包括:
.測試你的資料,來看它是否準備好被用作分析
.將電子試算表轉換為可被使用的表格
.處理在文字資料中隱藏的編碼問題
.開發一個成功的網頁抓取機制
.使用NLP工具來揭露線上評論的真實情緒
.提出可能會影響你的分析的雲端運算議題
.防止會阻礙資料分析的政策
.使用系統性的方法來分析資料品質
<章節目錄>
chapter 01 調整步伐:什麼是壞資料?
chapter 02 是只有我這樣,還是這個資料本身令人感到有趣?
chapter 03 資料是要給人類使用,而非給機器使用
chapter 04 隱藏在純文字中的壞資料
chapter 05 (重新)組織網站的資料
chapter 06 在矛盾的線上評論中偵測謊言以及混亂的狀況
chapter 07 可否請壞資料站出來?
chapter 08 血、汗與尿
chapter 09 當資料與現實並不相符時
chapter 10 偏頗與錯誤的微妙來源
chapter 11 別讓「完美」成為「好」的敵人:壞資料真的壞嗎?
chapter 12 當資料庫攻擊時:何時要堅持使用檔案的導引
chapter 13 臥庫表,藏網路
chapter 14 雲端運算的迷思
chapter 15 資料科學的黑暗面
chapter 16 要如何餵養以及照護你的機器學習專家
chapter 17 資料可追蹤性
chapter 18 社群媒體:可抹除式墨水?
chapter 19 揭開資料品質分析的神秘面紗:瞭解何時你的資料已經夠好了
索引