數據科學的關鍵技術包括數據存儲計算、數據治理、結構化數據分析、語音分析、視覺分析、文本分析和知識圖譜等方面。本書的重點是詳細介紹文本分析和知識圖譜方面的技術。文本分析技術主要包括文本預訓練模型、多語種文本分析、文本情感分析、文本機器翻譯、文本智能糾錯、NL2SQL問答以及ChatGPT大語言模型等。知識圖譜技術主要包括知識圖譜構建和知識圖譜問答等。本書將理論介紹和實踐相結合,詳細闡述各個技術主題的實現路線,並對應用於業界算法大賽中的技術方案和技巧進行源代碼解讀,幫助讀者深入理解技術原理。最後,本書還介紹了文本分析和知識圖譜技術在政務、公共安全、應急等多個行業中的智能應用實踐案例。
《數據科學技術:文本分析和知識圖譜》適合具備Python和機器學習技術基礎的高等院校學生、文本分析(或者自然語言處理)以及知識圖譜領域的算法工程師和研究機構的研究者閱讀,也適合數據科學和人工智能領域的研究者作為參考書。
蘇海波,清華大學電子工程系博士,副研究員,在文本分析、知識圖譜、大模型等人工智能方向擁有超過十年的研發實踐經驗。多篇SCI和EI論文發表於國外頂尖學術會議和期刊,獲得國家發明專利20余項,曾擔任科技部重點研發計劃子課題負責人。獲得2019年和2020年北京市科學技術進步獎,帶領團隊獲得多個業界知名算法技術評測的冠軍和亞軍。
劉譯璟,北京大學博士、正高級工程師,現任北京百分點科技集團股份有限公司CTO。在雲計算、大數據、人工智能等領域擁有15年研究和工作經驗。曾榮獲北京市科學技術獎等獎項,承擔國家科技部重點研發計劃項目2項,參與多個國家自然科學基金項目,多篇論文曾發表於國內外學術刊物。
易顯維,中國地質大學碩士,擁有12年AI算法研發崗相關研發管理經驗。在數據挖掘、OCR、文本分析等方面擁有豐富的實踐經驗,在眾多知名企事業單位舉辦的高水平機器學習算法競賽中累計獲獎20余次。
蘇萌,美國康奈爾大學博士,研究員,現任北京百分點科技集團股份有限公司董事長兼CEO、北京大學國家發展研究院實踐教授、北京大學光華管理學院實踐教授、北京市商會副會長、海淀區工商聯副主席、海淀區政協委員、國務院學位委員會全國應用統計專業“大數據專家委員會"委員等。曾執教於北京大學光華管理學院,任副系主任、博士生導師。