(相關資料圖)
不光能讀懂文字、圖像,還能理解音頻、視頻,甚至3D模型、傳感信號,思考起來更像“真人”。6月16日,在“人工智能框架生態峰會2023”上,中國科學院自動化研究所所長徐波發布了“紫東太初”全模態大模型。作為升級后的2.0版本,它不僅實現能力提升,還做到全鏈條“中國造”,打造出全棧國產化的通用人工智能底座。
何謂全模態大模型?“人的學習受到現實世界中視覺、聽覺、觸覺、嗅覺等各種信號的綜合影響,這些信號每一類都是一種模態,人類的學習過程是全模態的。但目前最常見的大語言模型仍以文字、圖片為主要模態,對音頻、視頻等信息的識別能力不足。”中科院自動化所紫東太初大模型研究中心常務副主任王金橋介紹,在“紫東太初”誕生之初,科研團隊就提出要像養育嬰兒一樣,為它營造全模態的學習環境。
早在2021年7月,全球首個千億參數的多模態大模型“紫東太初”1.0就已發布,實現圖像、文本、語音三類數據的相互生成。而歷經近2年的迭代,“紫東太初”2.0的能力再升級,除了讀懂圖文外,它還能“看懂”來自現實世界的影像數據、力觸覺、工業傳感信號等物聯數據,可以像“人”一樣綜合運用多種信號進行思考。
給出一張救護車圖片、一段森林救火的視頻和一段警笛音頻,“紫東太初”能識別并講述出一段完整的救援過程;而將一張圖書館的照片和汽車鳴笛聲音頻同時輸入,它則快速發現了其中的矛盾,認為這段音頻不太可能出現在圖書館場景之中。
在同樣的參數量級中,多模態大模型的能力會強于純粹的語言大模型,這意味著“紫東太初”可以用更少的訓練數據實現更優的效果?!捌鋵嵾@也很好理解,多種信息的綜合輸入,能夠降低認知成本,但這對科研的挑戰更大?!蓖踅饦蛘f,得益于團隊在多模態數據領域的多年積累,科研人員以語義為橋梁,將音頻、視頻、物聯數據等模態聯系起來,“在這條研發路徑上,我們走在了世界前列?!?/p>
“從算法到硬件、算力,‘紫東太初’都是‘中國造’?!蓖踅饦虮硎荆竽P退惴橹锌圃鹤詣踊匝?,以昇騰AI硬件及昇思MindSpore AI框架為基礎,算力則由武漢人工智能計算中心提供支持,“在國產軟硬件的支撐下,我們的大模型一樣能跑得很好、很快?!?/p>
大模型所掌握的數據種類越多,與真實世界的交互能力就越強,在不遠的將來,多模態大模型將普惠千行百業。目前,“紫東太初”大模型已在法律咨詢、交通出行、醫療健康等領域開始引領性示范。例如,通過部署“紫東太初”,中科院自動化所自研的微創柔性手術機器人MicroNeuro擁有了融合觸覺與視覺的跨模態分析能力,它已完成國際首例深位顱內活檢手術,并有望隨著大模型升級擁有對神經外科手術場景的自主理解。
“紫東太初”還開放了服務平臺,支持各行業根據各自需求“組裝”模塊,再輸入少量的行業樣本數據,就能產出自主可控的行業相關大模型。徐波表示,未來3至5年,包括“紫東太初”在內的我國大模型技術,將在促進數字經濟發展方面發揮重要作用,進一步釋放、提升各行業的勞動生產率。
流程編輯:U022
標簽: