百面機器學習 : 算法工程師帶你去面試

諸葛越 葫蘆娃

買這商品的人也買了...

商品描述

人工智能領域正在以超乎人們想象的速度發展,本書趕在人工智能徹底占領世界之前完成編寫,實屬萬幸。

書中收錄了超過100道機器學習算法工程師的面試題目和解答,其中大部分源於Hulu算法研究崗位的真實場景。

本書從日常工作、生活中各種有趣的現象出發,不僅囊括了機器學習的基本知識,而且還包含了成為出眾算法工程師的相關技能,更重要的是凝聚了筆者對人工智能領域的一顆熱忱之心,旨在培養讀者發現問題、解決問題、擴展問題的能力,建立對機器學習的熱愛,共繪人工智能世界的宏偉藍圖。

“不積跬步,無以至千里”,本書將從特徵工程、模型評估、降維等經典機器學習領域出發,構建一個算法工程師必-備的知識體系;見神經網絡、強化學習、生成對抗網絡等新科研進展之微,知深度學習領域勝敗興衰之著;“博觀而約取,厚積而薄發”,在末一章為讀者展示生活中各種引領時代的人工智能應用。

編輯推薦

不可不讀的機器學習面試寶典!微軟全球執行副總裁、美國工程院院士沈向洋,《浪潮之巔》《數學之美》作者吳軍,《計算廣告》作者、科大訊飛副總裁劉鵬,聯袂推薦!
人工智能幾起幾落,最近這次人工智能浪潮起始於近10年,技術的飛躍發展,帶來了應用前suo未有的可能性。未來的幾年,是人工智能技術全面普及化的時期,也是算法工程師稀缺的時期。
本書旨在幫助對人工智能和機器學習有興趣的朋友們更加深入地瞭解這個領域的基本技能,幫助每個軟件工程師成為自信的AI實踐者,幫助每個數據科學家成為出眾的AI研究者。對每個有志進入此領域的工程師來說,本書會為你鋪設一條快速通往目標的道路。

媒體推薦

諸葛越博士主編的此書是Hulu公司裡十幾位每天做前沿機器學習工作的工程師科學家一起合寫的,是原創的、實際的、直接可用的內容。這本書致力於普及人工智能和機器學習,幫助每個軟件工程師成為自信的AI實踐者,每個數據科學家成為出眾的AI研究者。
沈向洋/微軟全球執行副總裁,美國工程院院士

計算機理論和算法常常讓人感到高冷,因為它們和具體的應用之間缺少了一些橋樑。諸葛越博士的這本書,教授大家如何搭建這些橋樑。它可以讓計算機的從業者對理論的認識有一個飛躍,也可以讓非計算機專業的工程人員瞭解計算機科學這個強大的工具。
吳軍/《浪潮之巔》《數學之美》作者

在越來越多的機器學習專業書籍中,Hulu工程師們的這本專著讓我眼前一亮。本書沒有拾人牙慧,從學術角度來整理機器學習的理論和算法體系;而是從一線工程師的視角出發,在職業方向、面試重點、模型實戰和應用案例等諸方面有精到的介紹。對每個有志進入此領域的工程師來說,本書為你鋪設了一條快速通往目標的道路。另外,本書為多位工業界實戰專家合作完成,內容卻相當連貫系統,實在難能可貴。
劉鵬/《計算廣告》作者,科大訊飛副總裁

作者簡介

諸葛越

現任Hulu公司全球研發副總裁,中國研發中心總經理。

曾任Landscape Mobile公司聯合創始人兼CEO,前雅虎北京全球研發中心產品總監,微軟北京研發中心項目總經理,雅虎美國軟件架構師。

諸葛越獲美國斯坦福大學的計算機碩士與博士,紐約州立大學石溪分校的應用數學碩士,曾就讀於清華大學計算機科學與技術系。

諸葛越的研究結果獲多項專利,2005年獲美國計算機學會數據庫專業委員會十年最佳論文獎。

葫蘆娃

15位Hulu北京創新實驗室的人才。

他們利用擅長的機器學習、深度學習等領域知識和算法模型,建立了一套定制化的機AI平台,改變著推薦引擎、視頻編解碼、內容理解、廣告投放等多項與用戶息息相關的在線業務技術。

目錄大綱

推薦序

前言

機器學習算法工程師的自我修養

第1章特徵工程

第1節特徵歸一化

第2節類別型特徵

第3節高維組合特徵的處理

第4節組合特徵

第5節文本表示模型

第6節Word2Vec 

第7節圖像數據不足時的處理方法

第2章模型評估

第1節評估指標的局限性

第2節ROC曲線

第3節餘弦距離的應用

第4節A/B測試的陷阱

第5節模型評估的方法

第6節超參數調優

第7節過擬合與欠擬合

第3章經典算法

第1節支持向量機

第2節邏輯回歸

第3節決策樹

第4章降維

第1節PCA最大方差理論

第2節PCA最小平方誤差理論

第3節線性判別分析

第4節線性判別分析與主成分分析

第5章非監督學習

第1節K均值聚類

第2節高斯混合模型

第3節自組織映射神經網絡

第4節非監督學習算法的評估

第6章概率圖模型

第1節概率圖模型的聯合概率分佈

第2節概率圖表示

第3節生成式模型與判別式模型

第4節馬爾可夫模型

第5節主題模型

第7章優化算法

第1節有監督學習的損失函數

第2節機器學習中的優化問題

第3節經典優化算法

第4節梯度驗證

第5節隨機梯度下降法

第6節隨機梯度下降法的加速

第7節L1正則化與稀疏性

第8章採樣

第1節採樣的作用

第2節均勻分佈隨機數

第3節常見的採樣方法

第4節高斯分佈的採樣

第5節馬爾科夫蒙特卡洛採樣法

第6節貝葉斯網絡的採樣

第7節不均衡樣本集的重採樣

第9章前向神經網絡

第1節多層感知機與布爾函數

第2節深度神經網絡中的激活函數

第3節多層感知機的反向傳播算法

第4節神經網絡訓練技巧

第5節深度卷積神經網絡

第6節深度殘差網絡

第10章循環神經網絡

第1節循環神經網絡和卷積神經網絡

第2節循環神經網絡的梯度消失問題

第3節循環神經網絡中的激活 數

第4節長短期記憶網絡

第5節Seq2Seq模型

第6節注意力機制

第11章強化學習

第1節強化學習基礎

第2節視頻遊戲裡的強化學習

第3節策略梯度

第4節探索與利用

第12章集成學習

第1節集成學習的種類

第2節集成學習的步驟和例子

第3節基分類器

第4節偏差與方差

第5節梯度提升決策樹的基本原理

第6節XGBoost與GBDT的聯繫和區別

第13章生成式對抗網絡

第1節初識GANs的秘密

第2節WGAN:抓住低維的幽靈

第3節DCGAN:當GANs遇上卷積

第4節ALI:包攬推斷業務

第5節IRGAN:生成離散樣本

第6節SeqGAN:生成文本序列

第14章人工智能的熱門應用

第1節計算廣告

第2節遊戲中的人工智能

第3節AI在自動駕駛中的應用

第4節機器翻譯

第5節人機交互中的智能計算

後記

作者隨筆

參考文獻