近年來,人工智能技術迎來了新一輪大變革,其中由OpenAI開發的ChatGPT在推出短短2個月后便成為了月活破億的應用。隨著海外科技巨頭微軟、谷歌、Meta等加大投入,國內科技企業如百度、華為、阿里等紛紛布局,人工智能大模型的發展日新月異。
為直觀感受我國當前主流科技企業所推出的大模型產品的現狀、優勢和特點,新華社研究院中國企業發展研究中心于今年4月啟動了人工智能產業創新活力研究。本次研究設置了用戶體驗項目,抓取了05月22日—05月26日數據,通過人機互動提問等形式,對國內主流大模型進行使用體驗評測,旨在為科技企業調整努力方向提供參考。
【資料圖】
在綜合指數評價方面,本次評測選取4大維度(基礎能力、智商測試、情商測試、工作提效能力)、36個子能力,共300個問題,對目前主流大模型產品進行測試,并邀請相關專家組成評測團隊深入分析各個產品的語義理解、知識儲備、邏輯能力等,最終得出各廠商的大模型綜合指數評價。
在評價規則上,課題組以各個大模型對參與測評的題目回答完成度,進行了綜合考量,其中評測規則分為:答案較為完美,內容可在實際場景中直接使用;基本可用,可在實際場景中使用;調整可用,但需人工進行調整后方可使用;大略可用,需要較多人工調整方可使用;不可用,答非所問、語言不通等五個層級。
注:基于評測條件、評測時間等限制,本次評測結果存在一定主觀性,未來將進一步優化完善評測模型,提供更精確結果。
通過圍繞四個維度的綜合測試,課題組發現,由OpenAI開發的Chat-GPT系列模型各項指標表現優異,且Chat-GPT4.0版本各項能力在3.5版本的基礎上均有一定程度提升。而由百度開發的人工智能大模型文心一言表現較為搶眼,是目前國內自主研發的大模型中具有優勢的產品。其余大模型產品也在基礎能力方面表現優良,但面對較復雜的工作內容或情商環境仍有不同程度的進步空間。
針對各維度能力測評,該報告還給出了相應的案例展示和分析。
在基礎能力部分,百度文心一言表現最為搶眼,訊飛星火、阿里巴巴通義千問、智譜ChatGLM表現優良;商湯商量、Vicuna-13B表現尚佳。
在智商測試部分,百度文心一言在該環節意外超過ChatGPT3.5,表現突出,阿里巴巴通義千問分數接近GPT3.5,商湯商量、訊飛星火、智譜ChatGLM表現尚佳;Vicuna-13B表現有待改進。
在情商測試部分,百度文心一言表現最佳;阿里巴巴通義千問與訊飛星火表現優良;商湯商量、智譜ChatGLM表現尚可;Vicuna-13B表現一般。
在工作提效部分,百度文心一言與智譜ChatGLM最佳,訊飛星火次之;阿里巴巴通義千問及Vicuna-13B表現尚可;商湯商量表現一般。
研究發現,人工智能與各行業的深度融合是促進產業升級和轉型的重要方式之一,“大模型+行業”的發展應用尤為重要。目前大模型在金融、工業、醫療等領域已經取得了顯著的成果,如何為行業領域提供更為精準、更為高效的解決方案,成為大模型廠商未來彎道超車的機會。
報告指出,隨著人工智能的地位和作用越來越重要,政府、企業和社會需要共同努力,各大廠商應投入更多資源,頭部企業可以持續發力自研大模型,而專注于解決方案的行業廠商可以考慮通過深耕行業來彰顯特色。
研判該報告的測評結果,浙江大學國際聯合商學院數字經濟與金融創新研究中心聯席主任、研究員盤和林建議,國內大模型發展應從兩方面著力,一方面是大語言模型,中文并非ChatGPT的強項,OpenAI主業在英語,所以中文大語言模型對于中國市場還是有發展空間的;另一方面則是在細分領域應用,比如編程、專業知識問答、中文PPT制作等,這些細分的功能領域才是未來大模型真正需要關注的領域,也是從單個應用轉變為生態應用的關鍵。
掃碼查看
AI大模型體驗報告
↓↓↓
標簽: