中國AI大語言模型(LLM)的實力如何？

自OpenAI的面世，在人工智能(AI)發展上，全球都在加大開發不同的大語言模型(LLMs)，中國的廠商也不例外。其實今年不是第一年才開發LLM，中國的AI 發展是在2020年進入第一個加速階段。根據相關研報統計，目前國內至少已經有30多家LLMs亮相，包括百度「文心一言」、360「智腦」、訊飛「星火」、阿里「通義」和華為「盤古」等。從全球發布的LLM的分佈來看，中國和美國遙遙領先，佔全球總數的80%以上。

近日，新華社對國內各種LLM進行測評，發現「文心一言」的得分已經接近 OpenAI「GPT-3.5」，其中的智商測試已經超越「GPT-3.5」，表現突出，位居排名第二，僅次於「GPT-4」。在基礎能力部分，「文心一言」表現最為搶眼，訊飛「星火」及阿里「通義」表現優良；商湯「商量」表現尚佳。目前整個LLM在邏輯推理能力方面的挑戰都比較大，InfoQ 研究中心測評的十個LLM中，邏輯推理題得分最高的為「文心一言」和「星火」，得分均為 60%，與得分最高的 ChatGPT 僅差 1.43%。然而在中文推理題比國外的模型得分較多。可見，目前國內最頂級的LLMs能力接近「GPT-3.5」水準，但是與「GPT-4」能力仍存在差距。

由於監管合規和數據等問題，國外的LLM不會對目前國內的競爭有衝擊。筆者認為雖然與國外的模型差距猶在，但不必妄自菲薄，畢竟LLM技術隨著訓練一直在進步。不過國產AI大模型的玩家數不勝數，但由於各大廠算力水準接近，數據量相差不大，技術上也沒有重大突破，反而面臨更多同質化難題，因此可能需要從用戶體驗，不同的垂直型模型進行差異化競爭，比如華為和騰訊便選擇了做不同行業的Model as a Service，覆蓋了金融、政府、文旅、傳媒、教育、藥物分子、氣象大模型等進行行業應用的精調，從而避免同質化競爭。

傅可怡，持證監會持牌人士，博立研究團隊/中原資產管理高級分析員

中原博立

「博立」品牌，由兩位知名及經驗豐富的投資總監 - Michael Kan 簡志健和 Larry Hung 洪龍荃共同創立。他們除以價值投資為基礎，更重視公司的商業模式、企業文化及增長潛力，致力發掘可持續增長且有機會被重估價值的公司。他們非常重視公司質素，勤於公司專訪，深信投資決策應該根據基本研究及分析而決定。他們也極其重視風險控制及操作紀律，投資風格經歷多年實戰的驗證，長綫回報傲人。

中原「博立」全權委託投資組合管理服務

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.