本書介紹自然語言處理的原理和方法及其代碼實現,是一本着眼于自然語言處理教學實踐的圖書。
本書分為3個部分。第一部分介紹基礎技術,包括文本規範化、文本表示、文本分類、文本聚類。第二部分介紹自然語言的序列建模,包括語言模型、序列到序列模型、預訓練語言模型、序列標注。第三部分介紹自然語言的結構建模,包括成分句法分析、依存句法分析、語義分析、篇章分析。本書將自然語言處理的理論與實踐相結合,提供所介紹方法的代碼示例,能夠幫助讀者掌握理論知識並進行動手實踐。
本書適合作為高校自然語言處理課程的教材,也可作為相關行業的研究人員和開發人員的參考資料。
屠可偉,上海科技大學信息科學與技術學院長聘副教授、研究員、博士生導師。研究方向包括自然語言處理、機器學習等,主要研究將符號、統計和神經方法相結合用於語言結構的表示、學習與利用。發表論文100余篇,主要發表在ACL、EMNLP、AAAI 等人工智能領域頂級會議。擔任多個頂級會議程序委員會委員和領域主席。曾獲ACL 2023傑出論文獎,以及SemEval 2022和SemEval 2023最佳系統論文獎。
王新宇,上海科技大學博士,長期從事自然語言處理研究工作,在ACL、EMNLP、NAACL等頂級會議上發表論文10余篇,擔任ACL、NAACL會議的領域主席以及ACL滾動審查(ACL Rolling Review)執行編輯。曾獲得中國中文信息學會優秀博士學位論文提名、SemEval 2022最佳系統論文獎等榮譽。
曲彥儒,伊利諾伊大學厄巴納-香檳分校博士生,長期從事自然語言處理研究工作,在ACL、NAACL、AAAI、ICLR等會議上發表了多篇論文。
俞勇,上海交通大學ACM班創辦人,國家級教學名師,上海交通大學特聘教授。2018年創辦伯禹人工智能學院,在上海交通大學ACM班人工智能專業課程體系的基礎上,對人工智能課程體系進行創新,致力於培養卓越的人工智能算法工程師和研究員。