前言
寫作時,時間流淌得很快。不知不覺,月已上中天,窗外燈火闌珊。
仰望蒼穹,月色如水,宇宙浩瀚。每每想起人類已在月球上留下腳印,而今再度出發,就不由在心中感慨——如此有幸,能生活在這個時代。
其實,從來沒有任何一種技術的突破,未經歷過一次次失敗,就能直接「降臨」到人類的眼前。
人工智慧(Artificial Intelligence,AI)技術,從誕生至今,其發展並不是一帆風順的:盛夏與寒冬交錯,期望和失望交融。
自然語言處理(Natural Language Processing,NLP) 技術是如此。ChatGPT 和 GPT-4 亦是如此。
從 N - Gram 和 Bag-of-Words 開始,自然語言處理技術和模型在不斷發展和演進,逐漸引入了更強大的神經網路模型(如 RNN、Seq2Seq、Transformer等)。現代預訓練語言模型(如BERT 和 GPT)則進一步提高了 NLP 任務的處理性能,成為目前自然語言處理領域的主流方法。
這一本小書,希望從純技術的角度,為你整理生成式語言模型的發展脈絡,對從 N-Gram、詞袋模型(Bag-of-Words,BoW)、Word2Vec(Word to Vector,W2V)、神經機率語言模型(Neural Probabilistic Language Model,NPLM)、循環神經網路(Recurrent Neural Network,RNN)、Seq2Seq(Sequence-to-Sequence,S2S)、注意力機制(Attention Mechanism)、Transformer、BERT到GPT的技術一一進行解碼,厘清它們的傳承關係。
這些具體技術的傳承關係如下。
■N-Gram 和 Bag-of-Words :都是早期用於處理文字的方法,關注詞頻和局部詞序列。
■Word2Vec :實現了詞嵌入方法的突破,能從詞頻和局部詞序列中捕捉詞彙的語義資訊。
■NPLM :基於神經網路的語言模型,從此人類開始利用神經網路處理詞序列。
■RNN :具有更強大的長距離依賴關係捕捉能力的神經網路模型。
■Seq2Seq :基於 RNN 的編碼器 - 解碼器架構,將輸入序列映射到輸出序列,是 Transformer 架構的基礎。
■Attention Mechanism :使 Seq2Seq 模型在生成輸出時更關注輸入序列的特定部分。
■Transformer :摒棄了 RNN,提出全面基於自注意力的架構,實現高效平行計算。
■BERT :基於 Transformer 的雙向預訓練語言模型,具有強大的遷移學習能力。
■初代 GPT :基於 Transformer 的單向預訓練語言模型,採用生成式方法進行預訓練。
■ChatGPT :從 GPT-3 開始,透過任務設計和微調策略的最佳化,尤其是基於人類回饋的強化學習,實現強大的文字生成和對話能力。
■GPT-4:仍基於 Transformer 架構,使用前所未有的大規模計算參數和資料進行訓練,展現出比以前的 AI 模型更普遍的智慧,不僅精通語言處理,還可以解決涉及數學、編碼、視覺、醫學、法律、心理學等各領域的難題,被譽為 「通用人工智慧的星星之火」(Sparks of Artificial General Intelligence)。
今天,在我們為 ChatGPT、GPT-4 等大模型的神奇能力而驚歎的同時,讓我們對它們的底層邏輯與技術做一次嚴肅而快樂的探索。對我來說,這也是一次朝聖之旅,一次重溫人工智慧和自然語言處理技術 70 年間艱辛發展的旅程。
因此,我為一個輕鬆的序章取了一個略微沉重的標題:看似尋常最崎崛,成如容易卻艱辛。
格物致知,叩問蒼穹,直面失敗,勇猛前行。
向偉大的、不斷探索未知領域的科學家們致敬!
黃佳
2023 年春末夏初月夜