全球熱頭條丨學而思被指“偷數據”訓練AI，牽出大模型“隱秘的角落”

來源：21世紀經濟報道時間：2023-06-17 06:17:37

南方財經全媒體見習記者馬嘉璐 21世紀經濟報道記者尤一煒廣州報道

近日，筆神作文指控昔日合作伙伴學而思“偷數據”訓練自家AI產品，隨后學而思對此公開予以否認。筆神作文稱之為國內“AI大模型數據被盜第一案”。不過，有律師分析，從現有內容來看，該案應屬于普通的數據侵權糾紛或協議糾紛，目前還不能判斷學而思是否違法。

(資料圖片僅供參考)

筆神作文與學而思的糾紛，牽引出大模型的一個“隱秘的角落”：用于訓練AI大模型的數據，來源是否合法合規？事實上，關于大模型數據集的紛爭已在海內外頻頻上演。

監管方面正在注意AI大模型訓練數據集的合法合規。國家網信辦于今年4月公布的《生成式人工智能服務管理辦法（征求意見稿）》明確，預訓練、優化訓練數據應保證真實性、準確性、客觀性、多樣性，不含有侵犯知識產權的內容，包含個人信息的應符合“告知-同意”等原則。對外經濟貿易大學數字經濟與法律創新研究中心執行主任張欣認為，平衡安全和發展成為大模型數據集監管的重要挑戰，數據安全審計制度等可以為此提供借鑒。

或為國內“AI大模型數據被盜第一案”

筆神作文與學而思關于是否“偷數據”在互聯網公開“喊話”，已進行了一個半回合。

筆神作文將之稱為“AI大模型數據被盜第一案”。6月13日下午，筆神作文通過自己的微信公眾號、微博和第三方媒體發布消息，指控其合作伙伴學而思未經授權爬取了筆神作文的數據，用于訓練大模型產品。同日17時，學而思官方公眾號對此事作出回應，表示自己對筆神作文數據的使用屬于雙方合同約定的正常合作范圍，筆神作文“主觀揣測”“與事實嚴重不符”。

14日19時，筆神作文再次通過微信公眾號列舉更多“證據”，力圖證明學而思在4月13日至17日，通過“爬蟲”技術非法訪問、緩存筆神作文App服務器數據258萬次。

“筆神作文APP”微信公眾號公布的雙方合作API接口“每日數據調用量折線圖”

面對筆神作文的再次“喊話”，學而思是否有新的回應？截至發稿前，學而思與筆神作文方面均未針對此事向南方財經全媒體記者給出相關回應。

在13日的聲明中，學而思透露雙方合作的內容：筆神作文為學而思提供“筆神作文范文素材服務接口”，用于學而思相關服務中，每月保底費用包含的調用次數為百萬次量級。筆神作文則在14日發布的消息中稱，雙方合同明確“甲方（注：三體云聯公司，為學而思關聯公司）不得在未經乙方（注：一筆兩劃公司，“筆神作文”系該司旗下品牌）允許的情況下用于任何其他用途，包括緩存，存儲，作為語料進行計算，訓練等。”

筆神作文表示，將通過司法程序解決糾紛，要求“學而思”支付1元賠償金，公開道歉，并刪除已爬取的數據。

律師：現有內容難以判斷學而思違法

“‘AI大模型數據被盜第一案’有些噱頭的成分?！北本┦懈偺旃\律師事務所合伙人周楊認為，本案爭議的焦點是用于訓練AI大模型的數據，而并非AI大模型的算法，應屬于普通的數據侵權糾紛或協議糾紛。

海問律師事務所合伙人楊建媛分析，該事件可以從知識產權保護和反不正當競爭兩個角度來看。從知識產權保護角度，如果筆神作文對學而思獲取的內容享有著作權，且學而思的行為不符合著作權法規定的“可以不經著作權人許可”的“例外”情況，則學而思的行為需經過筆神作文的許可。她還強調，如筆神作文所稱為事實，學而思對筆神作文數據的使用可能超出了“合理使用”的范疇。

從反不正當競爭角度，學而思是否存在未經授權爬取筆神作文數據的情況、是否利用所獲數據開發實質性替代筆神作文的產品或服務，是判斷是否構成侵權的關鍵。楊建媛分析，從筆神作文的敘述來看，其可能并未對學而思設置反爬措施，但是在協議中約定了相關禁止行為。單純的違約行為較難直接認定為違反了反不正當競爭法下的商業道德要求。另外，學而思將數據用于大模型訓練，訓練出來的產品與筆神作文的產品是否存在競爭關系，是否會對筆神作文造成不良后果，還存在爭議。

周楊也表示，學而思是否違法，關鍵要看合同中對數據的獲取、處理和使用是如何約定的，以及筆神作文是否對作品、數據庫享有版權。根據現有雙方披露的內容，“還不能判斷”。

數據來源是否合規牽出“隱秘的角落”

筆神作文與學而思的糾紛，牽引出大模型的一個“隱秘的角落”：訓練AI大模型通常需要海量的數據，而這些數據的來源是否合法合規？

事實上，隨著ChatGPT帶動生成式AI的爆火，關于AI大模型訓練數據的紛爭在海內外頻頻上演。

爭議所涉及的數據可以大致分為兩類：一類有著明確的知識產權，如原創的圖片、音樂、視頻、文章等；一類由用戶在平臺上的零散發言匯集而成，如百科、社區、貼吧等。

今年年初，Stability AI受到美國大型商業圖庫提供商Getty Images以及漫畫家的分別起訴，原因是他們認為Stability AI用于訓練AI圖像生成模型Stable Diffusion的數據“非法復制和處理了受版權保護的圖像”。

此外，推特、“美版貼吧”Reddit也在今年上半年相繼宣布對API接口收費，且價格不菲。此前，這些平臺的內容可以被谷歌、openAI等公司免費爬取，用作大語言模型的訓練庫。推特CEO馬斯克稱“他們（微軟）非法利用推特的數據來訓練，是時候起訴他們了?！盧eddit則在其官網更新條款：“未經Reddit明確同意，您不得將Reddit上的內容用作任何模型訓練的輸入。未經明確批準，禁止將任何使用Reddit數據訓練的模型用于商業用途?！?/p>

谷歌C4數據集支撐了多個AI模型的預訓練。今年4月，《華盛頓郵報》與艾倫人工智能研究院合作調查發現，該數據集中存在只接受付費訂閱的網站，以及近30個被美國政府認定為盜版和假冒產品市場的網站。

平衡安全與發展成監管挑戰

監管方面正在注意AI大模型訓練數據集的情況。

當地時間2023年6月14日，歐洲議會投票通過關于《人工智能法案》的談判授權草案，意味著該法案將進入歐盟啟動監管前的最后階段。該法案要求OpenAI、谷歌和微軟等基礎模型的供應商需要公開，他們在訓練模型過程中，是否使用了受版權保護的數據。

此前，國家網信辦于今年4月公布的《生成式人工智能服務管理辦法（征求意見稿）》也明確，用于生成式人工智能產品的預訓練、優化訓練數據，應符合網安法等法律法規的要求，不含有侵犯知識產權的內容，包含個人信息的應符合“告知-同意”原則等要求，還應保證數據的真實性、準確性、客觀性、多樣性。

“對大模型數據集的監管，如何能做到安全和發展的平衡，是一個重要挑戰?！睂ν饨洕Q易大學數字經濟與法律創新研究中心執行主任張欣表示，《生成式人工智能服務管理辦法（征求意見稿）》已對AI訓練數據集的合規要求搭建了清晰的框架，在運用著作權和知識產權方式之外，還可以探索使用多種法律手段去實現。

張欣分析，監管的落地，還存在事后難追溯等問題，尤其在算法復雜度日益攀升、出現“算法黑箱”等情況下，如果從事后去還原和追溯數據集是否合規，十分依賴大模型開發商提供數據處理記錄和日志，很難從外部進行確認。此外，從技術上來說大模型很難精確刪除某個用戶的個人信息，這就限制了個人信息保護中“刪除權”的行使。

歐盟《人工智能法案》草案設置了吹哨人制度，鼓勵專業人士從內部進行監督，為監管提供了一種創新思路。張欣認為，大模型開發者應做好信息記錄和披露的工作，提高數據集的透明度，在算法解釋性遇到困難的時候，至少可以通過數據的透明和可解釋來尋找答案。數據安全審計制度在國際上也有較為通行的經驗，大模型數據監管也可以探索使用審計的方式，找到透明度與保護商業秘密之間的平衡。

標簽：

責任編輯：FD31

上一篇：短訊！從“破局者”進階“引領者” Dynabook 打造辦公整體解決方案全新進化論

下一篇：最后一頁