AI 大模型語言不平等：英文訓練成本最便宜，簡中是英文 2 倍

4,830 0 148

近日 X（原 Twitter）用戶 @dylan522p 展示牛津大學研究：GPT-4 和其他常見 LLM 語言模型推理成本差距很大。

英文輸入輸出比其他語言便宜，簡中成本約是英文2倍，西文成本是英文1.5倍，緬甸撣文是英文15倍。理由可追溯至5月牛津大學arXiv預印本論文。

詞元是將自然語言文本轉換成詞元（token）序列的過程，是語言模型處理文本的第一步。LLM計算力成本核算，詞元越多，耗費算力成本越高。毫無疑問，生成式AI商業化趨勢下，算力成本也會轉嫁給用戶，許多AI服務就是照處理詞元量計費。

論文顯示，研究分析17種詞元化方法，同文本轉換成不同語言詞元序列長度差異巨大，即使宣稱支援多語言，也無法做到完全公平。OpenAI GPT3 tokenizer詞元化「你的愛意」，英文只兩個詞元，簡中需八個詞元，即使簡中只有4字元，英文文本有14個字元。

@dylan522p上傳圖片可看到LLM處理一句英文需17個詞元（tokens），處理同樣意思的緬文需198個詞元（tokens），代表緬文處理成本達英文11倍。

The cost of LLM inference varies hugely based on the language for GPT-4 and most other common LLMs.English is the cheapest.Chinese is 2x English.Languages like Shan + Burmese are 15x more expensive.This is mostly because of how tokenizers work so need to output more tokens pic.twitter.com/Y7De09pb4w

— Dylan Patel (@dylan522p) July 28, 2023

類似情況很多，Aleksandar Petrov網站提供相關數據，感興趣的讀者自行查看語言差異。

OpenAI官網也有類似資訊，解釋API如何詞元化文本，以及顯示文本詞元總數。一個詞元通常對應英文文本約4字元，100個詞元約等於75個單字。得益於英文詞元序列短的優勢，生成式AI預訓練成本效益，英文是最大贏家，將其他語言使用者遠遠甩在身後，間接產生不公平局面。

除此之外，詞元序列長度差異也會導致處理延遲（某些語言處理同樣內容需更多時間）和長序列依賴性建模不公平（部分語言只能處理更短文本）。簡單說，某些語言用戶需要付出更高成本，接受更多延遲，卻性能更差，降低公平使用語言技術的機會，間接導致英文使用者和其他語言的AI鴻溝。

僅從輸出成本看，簡中成本是英文2倍。隨著AI深層發展，對總是「差一步」的簡中用戶並不友善。成本等各因素權衡下，非英文母語國也紛紛嘗試開發母語大模型。

以中國為例，中國最早探索AI的巨頭，3月20日百度上線文心一言，之後阿里巴巴通義千問大模型、華為盤古大模型等也陸續湧現。華為盤古大模型NLP大模型是首個千億參數中文大模型，有1,100億密集參數，經40TB大量數據訓練而成。

聯合國常務副祕書長阿米娜·穆罕默德曾警告，如果國際社會不採取行動，數位鴻溝將成為「不平等的新面孔」。隨著生成式AI突飛猛進，AI鴻溝也很有可能成為另類「不平等的新面孔」。