相關主題
商品描述
本書共分兩大部分,第1部分為語料庫數據理論基礎,第2部分為語料庫數據分層應用,八個章節各自圍繞數個R程序包的具體操作與應用展開。第1部分的四個章節為提取、歸集、分類、標註,解釋了語言數據處理流程中的一般工序步驟。第2部分的四個章節為語音、詞匯、句法、語用,從語料庫語言學視角,討論語言結構分析技術在分類假設檢驗、數據科學交叉、語言產業服務三個領域上的綜合落地方案,以此提振語言學本體的工學交叉效用,提高語言數據工程的產出效率
作者簡介
馬韜,博士,現任教於上海杉達學院外語學院,從事語料庫和應用語言學研究,專攻形態學。曾在英國語言學學會LAGB,美國語言學學會LSA,美國命名學會ANS,斯德哥爾摩大學隱喻學會SMF等國際語言學學術會議上發表論文。接受伯明翰城市大學語料庫專家Antoinette Renouf教授與上海交通大學外語學院語料庫和語言測試專家楊惠中教授發起的聯合培養博士項目指導,在英國期間曾師從中古英語專家RichardIngham教授,維也納大學早期現代英語專家Ursula Lutzky博士開展研究工作。
目錄大綱
第1部分 語料庫數據理論基礎
第1章 數據提取與readtext
1.1 語料庫的數據來源
1.2 語料庫的數據結構
1.3 文本數據提取的程序要點
1.4 文本數據提取的操作建議
1.5 語音數據提取的程序要點
1.6 語音數據提取的操作建議
第2章 數據歸集與rvest
2.1 數據歸集的寬度與深度
2.2 歸集節點的合成與編輯
2.3 循環歸集的程序要點
2.4 循環歸集的操作建議
2.5 地址編輯的程序要點
2.6 地址編輯的操作建議
第3章 數據分類與tidyr
3.1 變量分類的內涵與邊界
3.2 分類的結構與功能
3.3 數據分類的程序要點
3.4 數據分類的操作建議
3.5 分類預測的程序要點
3.6 分類預測的操作建議
第4章 數據標註與UDpipe
4.1 標註的內涵與邊界
4.2 詞性偏向與標註
4.3 詞性標註的程序要點
4.4 詞性標註的操作建議
4.5 詞塊篩選的程序要點
4.6 詞塊篩選的操作建議
第2部分 語料庫數據分層應用
第5章 語音特征與phonTools
5.1 語音特征的轉化
5.2 語音特征的分析
5.3 共振峰的功能指向
5.4 思考與操作
第6章 詞匯型式與stringr
6.1 詞匯型式的本質與屬性
6.2 詞匯型式的組合規律
6.3 詞匯型式的分布計算
6.4 思考與操作
第7章 句法結構與base
7.1 句法結構的能產性
7.2 句法結構的型式規律
7.3 句法型式的結構規律
7.4 思考與操作
第8章 語用傾向與neuralnet
8.1 語用傾向的定義範圍
8.2 語用傾向的型式規律
8.3 語用規則的型式傾向
8.4 思考與操作
