天天報道:全鏈條中國造，思考起來更像人！紫東太初全模態大模型發布

來源：北晚在線時間：2023-06-17 00:05:02

(相關資料圖)

不光能讀懂文字、圖像，還能理解音頻、視頻，甚至3D模型、傳感信號，思考起來更像“真人”。6月16日，在“人工智能框架生態峰會2023”上，中國科學院自動化研究所所長徐波發布了“紫東太初”全模態大模型。作為升級后的2.0版本，它不僅實現能力提升，還做到全鏈條“中國造”，打造出全棧國產化的通用人工智能底座。

何謂全模態大模型？“人的學習受到現實世界中視覺、聽覺、觸覺、嗅覺等各種信號的綜合影響，這些信號每一類都是一種模態，人類的學習過程是全模態的。但目前最常見的大語言模型仍以文字、圖片為主要模態，對音頻、視頻等信息的識別能力不足。”中科院自動化所紫東太初大模型研究中心常務副主任王金橋介紹，在“紫東太初”誕生之初，科研團隊就提出要像養育嬰兒一樣，為它營造全模態的學習環境。

早在2021年7月，全球首個千億參數的多模態大模型“紫東太初”1.0就已發布，實現圖像、文本、語音三類數據的相互生成。而歷經近2年的迭代，“紫東太初”2.0的能力再升級，除了讀懂圖文外，它還能“看懂”來自現實世界的影像數據、力觸覺、工業傳感信號等物聯數據，可以像“人”一樣綜合運用多種信號進行思考。

給出一張救護車圖片、一段森林救火的視頻和一段警笛音頻，“紫東太初”能識別并講述出一段完整的救援過程；而將一張圖書館的照片和汽車鳴笛聲音頻同時輸入，它則快速發現了其中的矛盾，認為這段音頻不太可能出現在圖書館場景之中。

在同樣的參數量級中，多模態大模型的能力會強于純粹的語言大模型，這意味著“紫東太初”可以用更少的訓練數據實現更優的效果?！捌鋵嵾@也很好理解，多種信息的綜合輸入，能夠降低認知成本，但這對科研的挑戰更大?！蓖踅饦蛘f，得益于團隊在多模態數據領域的多年積累，科研人員以語義為橋梁，將音頻、視頻、物聯數據等模態聯系起來，“在這條研發路徑上，我們走在了世界前列?！?/p>

“從算法到硬件、算力，‘紫東太初’都是‘中國造’?！蓖踅饦虮硎荆竽Ｐ退惴橹锌圃鹤詣踊匝?，以昇騰AI硬件及昇思MindSpore AI框架為基礎，算力則由武漢人工智能計算中心提供支持，“在國產軟硬件的支撐下，我們的大模型一樣能跑得很好、很快?！?/p>

大模型所掌握的數據種類越多，與真實世界的交互能力就越強，在不遠的將來，多模態大模型將普惠千行百業。目前，“紫東太初”大模型已在法律咨詢、交通出行、醫療健康等領域開始引領性示范。例如，通過部署“紫東太初”，中科院自動化所自研的微創柔性手術機器人MicroNeuro擁有了融合觸覺與視覺的跨模態分析能力，它已完成國際首例深位顱內活檢手術，并有望隨著大模型升級擁有對神經外科手術場景的自主理解。

“紫東太初”還開放了服務平臺，支持各行業根據各自需求“組裝”模塊，再輸入少量的行業樣本數據，就能產出自主可控的行業相關大模型。徐波表示，未來3至5年，包括“紫東太初”在內的我國大模型技術，將在促進數字經濟發展方面發揮重要作用，進一步釋放、提升各行業的勞動生產率。

流程編輯：U022

標簽：

責任編輯：FD31

上一篇：今日快訊：語態是什么意思英語_語態是什么意思

下一篇：最后一頁