您所在的位置: 首頁 >
新聞資訊 >
技術(shù)前沿 >
大模型時代公共數(shù)據(jù)分類分級治理
以大語言模型為代表的新型人工智能技術(shù)取得重要突破,為經(jīng)濟社會發(fā)展帶來機遇的同時,也產(chǎn)生了數(shù)據(jù)安全和隱私、侵害個人信息權(quán)益等問題。近日,國家網(wǎng)信辦等七部委印發(fā)了《生成式人工智能服務(wù)管理暫行辦法》,首次提出對生成式人工智能服務(wù)實行包容審慎和分類分級監(jiān)管,明確了訓練數(shù)據(jù)處理活動和數(shù)據(jù)標注等要求,規(guī)定了生成式人工智能服務(wù)規(guī)范。該辦法亦提出推動公共數(shù)據(jù)分類分級有序開放,擴展高質(zhì)量的公共訓練數(shù)據(jù)資源。進入大模型時代,公共數(shù)據(jù)安全將面臨極大的風險和挑戰(zhàn),生成式人工智能發(fā)展既要加強高質(zhì)量公共數(shù)據(jù)有效供給,也要加強對公共數(shù)據(jù)的安全保護,推動公共數(shù)據(jù)分類分級和合規(guī)使用,防范人工智能服務(wù)風險 。
大模型時代的數(shù)據(jù)安全風險新變化
近年來,我國陸續(xù)出臺了一系列法律法規(guī),包括《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》《個人信息保護法》,明確堅持數(shù)據(jù)分類分級的安全保護制度,保護個人信息,堅持保障數(shù)據(jù)安全與促進數(shù)據(jù)安全開放并重利用。應該看到,生成式人工智能訓練過程中涉及多源數(shù)據(jù)融合應用。研究表明,公共數(shù)據(jù)資源占全社會數(shù)據(jù)資源總量的80%左右,公共數(shù)據(jù)安全和隱私將是大模型使用和研發(fā)過程中一個極為重要的問題。大模型時代的數(shù)據(jù)安全風險正在面臨新的變化。
第一,從文本數(shù)據(jù)到多模態(tài)數(shù)據(jù),數(shù)據(jù)分類分級難度增大。盡管OpenAI并未公開GPT-4語言模型數(shù)據(jù)量,但從公開數(shù)據(jù)來看,GPT-3語言模型由1750億個參數(shù)訓練而成,由此迭代而來的GPT-4語言模型顯然需要更龐大的數(shù)據(jù)量作為支撐。大模型加速多模態(tài)發(fā)展,數(shù)據(jù)類型從文本拓展到圖片、音頻、視頻。高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)需求對數(shù)據(jù)分類分級的效率、成本提出了挑戰(zhàn)。
第二,從靜態(tài)保護到數(shù)據(jù)全生命周期,數(shù)據(jù)安全環(huán)境日益復雜。傳統(tǒng)數(shù)據(jù)安全以靜態(tài)保護數(shù)據(jù)實體為主,大模型需要依賴海量數(shù)據(jù)進行訓練和學習,數(shù)據(jù)由靜止轉(zhuǎn)向流動,數(shù)據(jù)安全場景發(fā)生了變化。數(shù)據(jù)安全不僅要保護數(shù)據(jù)實體,還要以數(shù)據(jù)分類分級為基礎(chǔ),對生成式人工智能從訓練到投入使用的全生命周期的個人信息處理和數(shù)據(jù)保護作出規(guī)范。比如,數(shù)據(jù)收集階段通過網(wǎng)絡(luò)爬蟲抓取、直接向個人信息主體收集、進行數(shù)據(jù)交易等方式均涉及大量的合規(guī)風險點,數(shù)據(jù)預處理階段對所收集數(shù)據(jù)進行清洗、標準化、標注與特征提取等步驟可能涉及演繹侵權(quán)。
第三,從單一主體到多元主體,數(shù)據(jù)安全管控形勢嚴峻。生成式人工智能的模型開發(fā)涉及多個步驟,包括數(shù)據(jù)采集、數(shù)據(jù)標注、數(shù)據(jù)清洗、模型訓練、模型優(yōu)化等。鑒于模型開發(fā)涉及大量的數(shù)據(jù)處理活動,其中各環(huán)節(jié)通常不會由同一主體執(zhí)行,而是由行業(yè)內(nèi)不同主體分工協(xié)作、共同完成。比如,企業(yè)通常以外包的方式將數(shù)據(jù)標注任務(wù)通過其自有的平臺分包給從業(yè)的公司或個人,因此管理難度增大,對履行合規(guī)義務(wù)提出了更大的挑戰(zhàn)。過長的模型開發(fā)鏈路以及多主體間的數(shù)據(jù)處理導致數(shù)據(jù)安全風險責任不清,追蹤溯源更加困難。
推動公共數(shù)據(jù)分類分級治理的路徑選擇
公共數(shù)據(jù)分類分級治理是一項復雜的系統(tǒng)工程,必須完整、準確、全面貫徹黨中央決策部署,梳理數(shù)據(jù)在采集、預訓練、結(jié)果輸出等全生命周期過程中面臨的安全風險,以分類分級為關(guān)鍵抓手,建構(gòu)大模型時代的公共數(shù)據(jù)分類分級治理體系。
第一,在制度上兼顧數(shù)據(jù)安全和發(fā)展。數(shù)據(jù)分類分級是大模型時代數(shù)據(jù)安全保護和數(shù)據(jù)要素市場化的前提,只有做好分類分級才能對數(shù)據(jù)安全管理采用更加精細化的措施。國家層面需盡快建立數(shù)據(jù)分類分級保護制度框架,制定清晰、具體、可操作的大模型訓練數(shù)據(jù)需求清單及負面清單,對不同類型和不同風險等級的數(shù)據(jù)采取差異化的管理措施。適時擴大數(shù)據(jù)分類分級的法律適用范圍,不能囿于安全保護視域,既要強調(diào)數(shù)據(jù)監(jiān)管和規(guī)則,同時也要強調(diào)數(shù)據(jù)開發(fā)利用。加快推動公共數(shù)據(jù)授權(quán)運營,規(guī)范公共數(shù)據(jù)授權(quán)、加工、經(jīng)營、安全監(jiān)管等數(shù)據(jù)活動,推動公共數(shù)據(jù)資源有序合規(guī)進入一級市場。
第二,在管理上建立多方聯(lián)動機制。建立政府部門、行業(yè)組織、開發(fā)者等不同主體參與的聯(lián)動機制,及時反饋、共同治理生成式人工智能數(shù)據(jù)安全面臨的新風險、新進展、新挑戰(zhàn),實現(xiàn)大模型數(shù)據(jù)安全與發(fā)展的多元共治。政府要發(fā)揮主導作用,對參與公共數(shù)據(jù)治理的數(shù)據(jù)運營商、研究支撐機構(gòu)、數(shù)據(jù)交易機構(gòu)等主體實施分類分級監(jiān)管,落實網(wǎng)絡(luò)安全、數(shù)據(jù)安全、個人信息保護等相關(guān)要求。行業(yè)組織可依法制定本行業(yè)數(shù)據(jù)分類分級標準,結(jié)合行業(yè)具體應用場景、數(shù)據(jù)屬性和重要程度,制定和推廣數(shù)據(jù)安全規(guī)范和團體標準。同時,鼓勵生成式人工智能產(chǎn)業(yè)鏈條上的各類管理、開發(fā)、研究人員合法合規(guī)地發(fā)掘數(shù)據(jù)資產(chǎn),開放數(shù)據(jù)資源、參與數(shù)據(jù)交易。
第三,在技術(shù)上創(chuàng)新智能分類分級方法。建設(shè)公共訓練數(shù)據(jù)資源平臺,聚焦金融、醫(yī)療、交通、空間等建設(shè)公共數(shù)據(jù)專區(qū),提供安全、可信的數(shù)據(jù)清洗、加工環(huán)境,打造高質(zhì)量的人工智能訓練數(shù)據(jù)集和中文語料數(shù)據(jù)。利用自然語言處理、卷積神經(jīng)網(wǎng)絡(luò)等技術(shù)對公共數(shù)據(jù)進行智能識別,對數(shù)據(jù)編目識別模型進行快速分級,用實例數(shù)據(jù)識別模型對分級模型進行深度識別,動態(tài)掃描數(shù)據(jù)資產(chǎn),從而實現(xiàn)智能化自動化公共數(shù)據(jù)分類分級。根據(jù)分詞結(jié)果、詞性屬性以及不同的數(shù)據(jù)責任主體,探索利用多方安全計算、區(qū)塊鏈等新技術(shù)構(gòu)建與之匹配的公共數(shù)據(jù)集開放共享機制,在確保數(shù)據(jù)安全可控的前提下,實現(xiàn)公共數(shù)據(jù)可信流通。(文 | 之江實驗室智能社會治理研究中心高級工程專員 黃成鳳;之江實驗室智能社會治理研究中心正高級工程師、信息技術(shù)部主任 丁萬夫)
來源:中國社會科學網(wǎng)