摘? 要:通過對內(nèi)網(wǎng)數(shù)據(jù)泄露場景的研究,基于行為分析技術(shù)發(fā)現(xiàn)內(nèi)網(wǎng)數(shù)據(jù)泄露的風(fēng)險。從內(nèi)網(wǎng)數(shù)據(jù)的生命周期出發(fā),結(jié)合內(nèi)網(wǎng)數(shù)據(jù)泄露的途徑,梳理出 45 個數(shù)據(jù)泄露的場景。采用基于分析規(guī)則的流式實(shí)時分析和基于 AI 檢測的離線行為建模分析兩種方法對場景進(jìn)行檢測。目前已將這些研究成果成功應(yīng)用于數(shù)據(jù)防泄露監(jiān)測平臺,取得了令人滿意的效果,為解決內(nèi)網(wǎng)數(shù)據(jù)防泄露問題提供了一種新的研究思路和實(shí)踐方法。
內(nèi)容目錄:
1 研究現(xiàn)狀
2 內(nèi)部網(wǎng)絡(luò)特點(diǎn)分析
3 泄露場景梳理
3.1 數(shù)據(jù)生成
3.2 數(shù)據(jù)存儲
3.3 數(shù)據(jù)訪問
3.4 數(shù)據(jù)流轉(zhuǎn)
3.5 數(shù)據(jù)外發(fā)
3.6 數(shù)據(jù)備份
3.7 數(shù)據(jù)銷毀
4 技術(shù)實(shí)現(xiàn)
4.1 基于分析規(guī)則的流式實(shí)時分析
4.2 基于 AI 檢測的離線行為建模分析
5 結(jié)? 語
IBM 安 全 團(tuán) 隊(duì) 于 2023 年 7 月 發(fā) 布 的 Cost ofData Breach Report 顯示,2023 年全球數(shù)據(jù)泄露的平均成本達(dá)到 445 萬美元,創(chuàng)該報告有史以來最高紀(jì)錄,也較過去 3 年均值增長了 15%。同月,著名咨詢機(jī)構(gòu) Verizon 發(fā)布了《2023 年數(shù)據(jù)泄露報告》,該報告對 2022 年一年發(fā)生的 16 312 起安全事件和5 199 起數(shù)據(jù)泄露事件進(jìn)行了分析。報告顯示,人是數(shù)據(jù)泄露事件的關(guān)鍵因素,安全事件涉及人為因素的占比為 74%,包括人為錯誤、濫用職權(quán)、使用被盜憑證,以及社會工程學(xué)攻擊,而人在安全事件中始終扮演著非常重要的角色 。在所有這些泄密事件中,內(nèi)部威脅(即來自公司內(nèi)部員工的威脅)在數(shù)據(jù)泄露事件中占據(jù)了較大的比例。
近年來,內(nèi)網(wǎng)數(shù)據(jù)泄露案例層出不窮 ,例如2018 年 7 月,某市保密局在工作中發(fā)現(xiàn),該市科技局辦公室副主任孫某使用的非涉密計(jì)算機(jī)中存儲、處理涉密文件資料,共收集了包括 1 份機(jī)密級、7 份秘密級在內(nèi)的 1 100 多份發(fā)改領(lǐng)域文件資料,孫某使用移動硬盤將部分?jǐn)?shù)據(jù)導(dǎo)出至其在科技局的辦公電腦,直至案發(fā);2021 年 5 月,某單位收到上級下發(fā)的秘密級工作方案,要求逐級參照制定,該單位業(yè)務(wù)部門負(fù)責(zé)人王某安排工作人員趙某負(fù)責(zé)起草方案,趙某“依葫蘆畫瓢”擬好初稿,便草草提交到單位內(nèi)網(wǎng)的非涉密電子公文系統(tǒng),王某審閱文稿時,未發(fā)現(xiàn)定密疏漏,該單位的下屬單位均據(jù)此方案制文,通過該系統(tǒng)層層轉(zhuǎn)發(fā),造成泄密。
本文對企事業(yè)單位內(nèi)部網(wǎng)絡(luò)數(shù)據(jù)防泄露問題展開了深入的研究。從內(nèi)網(wǎng)數(shù)據(jù)生命周期的角度梳理出數(shù)據(jù)泄露的場景,并提出了基于分析規(guī)則的流式實(shí)時分析和基于 AI 檢測的離線行為建模分析兩種技術(shù)實(shí)現(xiàn)方法。
1、研究現(xiàn)狀
隨著數(shù)據(jù)泄露問題日益嚴(yán)重,已經(jīng)有許多研究和實(shí)踐工作致力于開發(fā)數(shù)據(jù)防泄露解決方案。目前,數(shù)據(jù)防泄露的技術(shù)路線主要包括數(shù)據(jù)加密技術(shù)、權(quán)限管控技術(shù)和基于內(nèi)容深度識別的通道防護(hù)技術(shù),然而這些方法存在一些問題 。
數(shù)據(jù)加密技術(shù)是過去十年國內(nèi)數(shù)據(jù)泄露防護(hù)的重要技術(shù)之一,它涵蓋了磁盤加密、文件加密和透明文檔加解密等技術(shù)路線。加密技術(shù)可以從數(shù)據(jù)泄露的源頭保護(hù)數(shù)據(jù),在數(shù)據(jù)離開企業(yè)內(nèi)部后仍能起到防止數(shù)據(jù)泄露的作用。然而,加密技術(shù)的密鑰管理非常復(fù)雜,一旦密鑰丟失或加密后的數(shù)據(jù)損壞,將導(dǎo)致原始數(shù)據(jù)無法恢復(fù)。
權(quán)限管控技術(shù)通過設(shè)置特定的安全策略,在敏感數(shù)據(jù)文件生成、存儲和傳輸時實(shí)現(xiàn)自動化保護(hù)。它還通過條件訪問控制策略防止敏感數(shù)據(jù)非法復(fù)制、泄露和擴(kuò)散等操作。權(quán)限管理策略與業(yè)務(wù)流程有密切關(guān)聯(lián),對用戶現(xiàn)有的業(yè)務(wù)流程可能產(chǎn)生影響。
基于內(nèi)容深度識別的通道防護(hù)技術(shù)以深度內(nèi)容識別為核心,根據(jù)敏感數(shù)據(jù)內(nèi)容策略定義,監(jiān)控?cái)?shù)據(jù)的外傳通道,并對敏感數(shù)據(jù)的外泄進(jìn)行審計(jì)或控制。然而,在一些內(nèi)網(wǎng)環(huán)境中,由于政策法規(guī)要求及商業(yè)利益保護(hù)等原因,通常不允許外部程序直接提取文件的內(nèi)容信息,因此該技術(shù)在某些內(nèi)網(wǎng)中的應(yīng)用受到限制。
使用以上技術(shù)的傳統(tǒng)數(shù)據(jù)防泄露產(chǎn)品主要側(cè)重于靜態(tài)的數(shù)據(jù)保護(hù),往往忽視了用戶行為導(dǎo)致的數(shù)據(jù)泄露場景,無法對內(nèi)網(wǎng)用戶的行為進(jìn)行全面監(jiān)測和分析,也無法有效識別和防止用戶通過合法但有潛在風(fēng)險的行為泄露數(shù)據(jù),內(nèi)網(wǎng)數(shù)據(jù)泄露的挑戰(zhàn)亟待解決。因此,需要一種新的數(shù)據(jù)防泄露機(jī)制來應(yīng)對當(dāng)前和未來的數(shù)據(jù)安全風(fēng)險。
本文提出的基于行為分析的內(nèi)網(wǎng)數(shù)據(jù)防泄露方法彌補(bǔ)了傳統(tǒng)方法的不足,具有很大的優(yōu)勢和潛力。該方法能夠關(guān)注用戶的行為特征和動態(tài)變化,充分考慮用戶在內(nèi)網(wǎng)中可能導(dǎo)致數(shù)據(jù)泄露的行為場景。通過檢測場景,分析和識別數(shù)據(jù)泄露風(fēng)險,能有效監(jiān)測內(nèi)網(wǎng)數(shù)據(jù)泄露事件。
2、內(nèi)部網(wǎng)絡(luò)特點(diǎn)分析
內(nèi)部網(wǎng)絡(luò)(簡稱內(nèi)網(wǎng))是采用 Internet 技術(shù),在政府機(jī)構(gòu)、企事業(yè)單位內(nèi)部建立的專用網(wǎng)絡(luò)。它是日常辦公和科研生產(chǎn)的重要網(wǎng)絡(luò),用于組織內(nèi)部的數(shù)據(jù)交流和共享。內(nèi)網(wǎng)數(shù)據(jù)通常包含組織的核心機(jī)密、財(cái)務(wù)報表、技術(shù)設(shè)計(jì)等高價值信息。這些數(shù)據(jù)一旦泄露會對組織甚至國家造成巨大損失,因此內(nèi)部網(wǎng)絡(luò)往往與國際互聯(lián)網(wǎng)進(jìn)行物理隔離或高強(qiáng)度邏輯隔離。
當(dāng)前,大多數(shù)內(nèi)部網(wǎng)絡(luò)嚴(yán)格遵循等級保護(hù)的要求,實(shí)施了較為完善的防護(hù)措施 [7],但內(nèi)網(wǎng)數(shù)據(jù)泄露風(fēng)險仍然存在,數(shù)據(jù)泄露事件時有發(fā)生。這些防護(hù)措施能夠?yàn)閿?shù)據(jù)泄露場景的研究提供條件,例如:依據(jù)組織內(nèi)部情況或者相關(guān)法律法規(guī)對數(shù)據(jù)進(jìn)行分類分級,控制數(shù)據(jù)的外發(fā)途徑,限定數(shù)據(jù)內(nèi)部的流轉(zhuǎn)方式,建立安全審計(jì)機(jī)制等。對數(shù)據(jù)進(jìn)行分類分級可以更準(zhǔn)確地確定數(shù)據(jù)泄露的風(fēng)險區(qū)域,挖掘基于分級數(shù)據(jù)的泄露場景;控制數(shù)據(jù)的外發(fā)途徑,以及限定數(shù)據(jù)內(nèi)部的流轉(zhuǎn)方式,使得數(shù)據(jù)只能通過有限的、可控的途徑外發(fā)或在網(wǎng)絡(luò)內(nèi)部流轉(zhuǎn),可以較為清晰地梳理出在數(shù)據(jù)外發(fā)和流轉(zhuǎn)過程中潛在的泄露場景;建立安全審計(jì)機(jī)制,可以記錄用戶的操作日志、數(shù)據(jù)傳輸日志、網(wǎng)絡(luò)訪問日志等,這些日志可以被收集和分析,為數(shù)據(jù)泄露場景的分析提供基礎(chǔ)數(shù)據(jù)源。
因此,基于內(nèi)網(wǎng)的以上特點(diǎn),可以依據(jù)內(nèi)網(wǎng)數(shù)據(jù)分類分級情況、數(shù)據(jù)外發(fā)途徑、數(shù)據(jù)流動方式、用戶操作行為等梳理數(shù)據(jù)泄露場景。
3、泄露場景梳理
內(nèi)網(wǎng)數(shù)據(jù)泄露的途徑多種多樣,其中包括數(shù)據(jù)分級分類不準(zhǔn)確導(dǎo)致被錯誤分發(fā),弱密碼或暴力破解工具獲取登錄憑證訪問敏感數(shù)據(jù),內(nèi)部人員利用其內(nèi)部訪問權(quán)限故意竊取數(shù)據(jù)等,這些方式都與人的因素密不可分。
從內(nèi)網(wǎng)數(shù)據(jù)生成、數(shù)據(jù)存儲、數(shù)據(jù)訪問、數(shù)據(jù)流轉(zhuǎn)、數(shù)據(jù)外發(fā)、數(shù)據(jù)備份、數(shù)據(jù)銷毀 7 個階段的生命周期出發(fā),結(jié)合內(nèi)網(wǎng)數(shù)據(jù)泄露的途徑,可以全面了解數(shù)據(jù)在整個生命周期中可能面臨的風(fēng)險,梳理出如下數(shù)據(jù)泄露的場景,如圖 1 所示。
圖 1 數(shù)據(jù)泄露場景列表
以下場景中提及了兩種數(shù)據(jù)泄露的對象,分別為敏感信息和商密文件。敏感信息指的是那些可能對個人、組織或業(yè)務(wù)造成損害或泄露的信息。這些信息可能包含個人身份信息、專利、客戶數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)等。商密文件在本文中特指采用了密級標(biāo)識技術(shù),通過標(biāo)識來表示保密等級的文件,例如核心商密等級、普通商密等級、非密等級。通過文件的密級標(biāo)識可以進(jìn)行適當(dāng)?shù)脑L問控制和保護(hù)措施。敏感信息包含了商密文件,但不僅限于商密文件。
3.1 數(shù)據(jù)生成
數(shù)據(jù)生成階段指的是數(shù)據(jù)的初始產(chǎn)生過程,包括用戶各種形式的數(shù)據(jù)輸入、記錄、生成等活動。在這個階段,數(shù)據(jù)可能因人為錯誤導(dǎo)致敏感信息被錯誤地記錄或公開。
場景舉例說明:商密文件預(yù)定的密級標(biāo)識不正確,如將核心商密錯誤地標(biāo)注為普通商密文件。這種情況會錯誤地設(shè)置該文件的訪問權(quán)限,導(dǎo)致非授權(quán)人員可以獲取到該文件的內(nèi)容,引發(fā)數(shù)據(jù)泄露。通過結(jié)合文件創(chuàng)建操作日志、定密輔助系統(tǒng)日志進(jìn)行關(guān)聯(lián)分析可檢測該場景。
針對該階段梳理出的場景包括商密文件預(yù)定的密級標(biāo)識不正確、敏感信息分級分類不正確。
3.2 數(shù)據(jù)存儲
數(shù)據(jù)存儲階段指的是用戶將數(shù)據(jù)保存在各種存儲設(shè)備或存儲介質(zhì)中,以便后續(xù)使用和訪問。在這個階段,內(nèi)網(wǎng)中未設(shè)置存儲設(shè)備的訪問控制策略或者訪問控制策略失效都會導(dǎo)致數(shù)據(jù)泄露。
場景舉例說明:重要商密文件存儲在非授權(quán)計(jì)算機(jī)的存儲設(shè)備上,例如核心商密文件存儲在未授權(quán)存儲該保密等級的非密計(jì)算機(jī)存儲設(shè)備上。由于非授權(quán)計(jì)算機(jī)沒有適當(dāng)?shù)脑L問控制機(jī)制和物理安全措施,可能會導(dǎo)致非授權(quán)人員可以輕易訪問或者設(shè)備被攻擊而引發(fā)數(shù)據(jù)泄露。通過文件監(jiān)控審計(jì)日志結(jié)合資產(chǎn)臺賬中該資產(chǎn)的保密等級信息,可檢測該場景。
針對該階段梳理出的場景包括:重要商密文件存儲在非授權(quán)計(jì)算機(jī)的存儲設(shè)備上,存儲有敏感信息的存儲設(shè)備或介質(zhì)丟失。
3.3 數(shù)據(jù)訪問
數(shù)據(jù)訪問階段指的是獲取和查看存儲在內(nèi)網(wǎng)中的數(shù)據(jù)的行為,包括本地文件訪問、應(yīng)用系統(tǒng)訪問、數(shù)據(jù)庫訪問。
3.3.1 本地文件訪問
如果用戶在本地訪問文件時,權(quán)限分配不當(dāng)或者用戶訪問時通過截屏等方式故意泄密等情況都有可能發(fā)生數(shù)據(jù)泄露。
場景舉例說明:用戶訪問不符合自身保密等級的商密文件。這種情況存在內(nèi)部濫用數(shù)據(jù)的風(fēng)險,也可能成為攻擊者的目標(biāo),攻擊者通過社交工程、惡意軟件或其他方式獲取用戶的登錄憑證,導(dǎo)致數(shù)據(jù)泄露。通過文件監(jiān)控審計(jì)日志結(jié)合用戶臺賬中用戶的保密等級信息可檢測該場景。
針對數(shù)據(jù)訪問階段中本地文件訪問梳理出的場景包括:用戶訪問不符合自身保密等級的商密文件,用戶訪問知悉范圍以外的敏感信息,用戶查看敏感信息時使用手機(jī)拍照或錄像,偏離個人基線的敏感信息訪問,偏離群體基線的敏感信息訪問,用戶違規(guī)篡改 / 破壞商密文件密級標(biāo)識,用戶違規(guī)篡改 /破壞商密文件內(nèi)容,違反訪問策略的敏感信息訪問,用戶查看敏感信息時截屏。
3.3.2 應(yīng)用系統(tǒng)訪問
用戶對應(yīng)用系統(tǒng)的惡意使用和非授權(quán)使用可能會導(dǎo)致數(shù)據(jù)泄露。
場景舉例說明:偏離個人基線的敏感信息下載。當(dāng)用戶或員工的下載行為偏離其個人的正常行為模式時,如突發(fā)大規(guī)模地下載敏感文件,超出了其日常工作或需求的范圍,這可能意味著用戶正在進(jìn)行大量數(shù)據(jù)的拷貝、備份或轉(zhuǎn)移,增加了數(shù)據(jù)泄露的風(fēng)險。通過創(chuàng)建個人下載敏感文件的基線,比對當(dāng)前下載行為是否偏離基線的方式可檢測該場景。
針對數(shù)據(jù)訪問階段中應(yīng)用系統(tǒng)訪問梳理出的場景包括:用戶超授權(quán)范圍訪問重要應(yīng)用系統(tǒng)、偏離個人基線的敏感信息下載(頻次 / 數(shù)量)、偏離群體基線的敏感信息下載(頻次 / 數(shù)量)、非法設(shè)備接入網(wǎng)絡(luò)之后下載敏感信息、重要應(yīng)用系統(tǒng)編程接口(Application Programming Interface,API)訪問異常(時段 / 次數(shù))。
3.3.3 數(shù)據(jù)庫訪問
數(shù)據(jù)庫的訪問控制策略不完善或已失效可能導(dǎo)致數(shù)據(jù)庫的敏感信息泄露。
場景舉例說明:普通用戶直接訪問重要應(yīng)用系統(tǒng)數(shù)據(jù)庫。重要應(yīng)用系統(tǒng)往往會有嚴(yán)格的訪問控制機(jī)制,普通用戶通常不具備直接訪問數(shù)據(jù)庫的權(quán)限。但如果用戶通過一些技術(shù)手段,如利用漏洞或采用非授權(quán)的賬戶登錄,繞過訪問控制,直接訪問數(shù)據(jù)庫,就有可能導(dǎo)致數(shù)據(jù)泄露。利用數(shù)據(jù)庫操作審計(jì)日志,結(jié)合用戶臺賬信息關(guān)聯(lián)分析可檢測該場景。
針對數(shù)據(jù)訪問階段中數(shù)據(jù)庫訪問梳理出的場景包括:重要應(yīng)用系統(tǒng)數(shù)據(jù)庫訪問控制違規(guī),重要應(yīng)用系統(tǒng)數(shù)據(jù)庫訪問偏離基線(周期、時序、動作、時長、頻次),普通用戶直接訪問重要應(yīng)用系統(tǒng)數(shù)據(jù)庫。
3.4 數(shù)據(jù)流轉(zhuǎn)
數(shù)據(jù)流轉(zhuǎn)階段指的是數(shù)據(jù)在內(nèi)部網(wǎng)絡(luò)進(jìn)行傳輸和流動的過程。相比外網(wǎng),內(nèi)網(wǎng)中的數(shù)據(jù)流轉(zhuǎn)手段和方式較少,限制更嚴(yán)格,通過專用的內(nèi)部流轉(zhuǎn)程序和系統(tǒng)完成,例如基于身份認(rèn)證的郵件系統(tǒng)、電子公文交換系統(tǒng)。這類系統(tǒng)雖然有權(quán)限和訪問控制策略,但有時也會出現(xiàn)由于人為疏忽未建立合適的訪問控制策略或者訪問控制策略失效的情況。
場景舉例說明:商密文件向非授權(quán)人員流轉(zhuǎn),指的是標(biāo)識了保密等級的商密文件向不符合該密級訪問權(quán)限的人員流轉(zhuǎn),可能由人為失誤、權(quán)限管理不當(dāng)或惡意行為引發(fā),導(dǎo)致信息泄露。通過郵件收發(fā)日志、文件傳輸日志,結(jié)合人員臺賬信息,設(shè)置匹配規(guī)則可檢測該場景。
針對該階段梳理出的場景包括:商密文件向非授權(quán)網(wǎng)絡(luò)流轉(zhuǎn),商密文件向非授權(quán)安全域流轉(zhuǎn),商密文件向非授權(quán)設(shè)備流轉(zhuǎn),商密文件向非授權(quán)人員流轉(zhuǎn)。
3.5 數(shù)據(jù)外發(fā)
數(shù)據(jù)外發(fā)階段指的是將數(shù)據(jù)帶出內(nèi)部網(wǎng)絡(luò)的行為。這包括將數(shù)據(jù)打印、刻錄、復(fù)制到可移動介質(zhì),通過外接網(wǎng)絡(luò)非法傳輸?shù)确绞?。在這個階段中,人為因素是導(dǎo)致數(shù)據(jù)泄露的直接原因,可能由于個人動機(jī)、疏忽大意或不當(dāng)操作而發(fā)生。針對該階段梳理出的場景包括打印 / 刻錄帶出、外設(shè)帶出、網(wǎng)絡(luò)帶出 3 類。
3.5.1 打印 / 刻錄帶出類
場景舉例說明:用戶違規(guī)降低商密文件密級后打印 / 刻錄商密文件,指用戶故意或錯誤地將高保密等級文件的密級降低,并將其打印或刻錄到低密級介質(zhì)中的行為,例如將核心商密文件的密級修改為非密文件之后打印帶走。通過文件監(jiān)控審計(jì)日志、打印刻錄日志,關(guān)聯(lián)用戶降密操作和打印刻錄行為進(jìn)行分析,可檢測出該場景。
針對數(shù)據(jù)外發(fā)階段中打印 / 刻錄帶出類梳理出的場景包括:用戶違規(guī)夾帶打印 / 刻錄敏感信息,用戶違規(guī)降低商密文件密級后打印 / 刻錄商密文件,用戶多次登錄失敗后成功登錄操作系統(tǒng)(疑似暴力破解)并打印 / 刻錄敏感信息,偏離個人基線的異常打印 / 刻錄,偏離群體基線的異常打印 / 刻錄,用戶非工作時間打印 / 刻錄敏感信息,用戶使用運(yùn)維終端大量打印 / 刻錄敏感信息,已申請離職人員大量打印 / 刻錄敏感信息,違反安全策略打印 / 刻錄文件。
3.5.2 外設(shè)帶出類
場景舉例說明:違反安全策略插入 USB 介質(zhì),指的是用戶違反安全規(guī)定,將未經(jīng)審批的 USB 設(shè)備插入受控環(huán)境,可能導(dǎo)致數(shù)據(jù)泄露和安全風(fēng)險的發(fā)生。通過外設(shè)使用日志,以及設(shè)置受控設(shè)備 PID/VID 白名單,可檢測該場景。
針對數(shù)據(jù)外發(fā)階段中外設(shè)帶出類梳理出的場景包括:違反安全策略插入 USB 介質(zhì),用戶多次登錄失敗后成功登錄操作系統(tǒng)(疑似暴力破解)后使用外設(shè)拷貝敏感信息,外設(shè)使用人不在專用優(yōu)盤的使用范圍之內(nèi),專用優(yōu)盤拷貝商密文件數(shù)量超過閾值。
3.5.3 網(wǎng)絡(luò)帶出類
場景舉例說明:違規(guī)外聯(lián)之后傳輸敏感信息,指的是在未經(jīng)授權(quán)的情況下,通過非安全渠道方式,將內(nèi)部網(wǎng)絡(luò)與外網(wǎng)相連,并將敏感信息傳輸給外部網(wǎng)絡(luò)的行為。通過關(guān)聯(lián)網(wǎng)絡(luò)連接審計(jì)日志、文件傳輸流量日志可檢測該場景。
針對數(shù)據(jù)外發(fā)階段中網(wǎng)絡(luò)帶出類梳理出的場景為違規(guī)外聯(lián)之后傳輸敏感信息。
3.6 數(shù)據(jù)備份
數(shù)據(jù)備份階段指的是為了數(shù)據(jù)的可恢復(fù)性和容災(zāi)能力而進(jìn)行的備份操作。數(shù)據(jù)備份可以保證數(shù)據(jù)在意外災(zāi)難或數(shù)據(jù)丟失時的恢復(fù),如果備份權(quán)限失控或者用戶備份行為背離其日常行為軌跡都有可能發(fā)生數(shù)據(jù)泄露。
場景舉例說明:從非應(yīng)用系統(tǒng)發(fā)起的數(shù)據(jù)庫備份操作異常。正常情況下對數(shù)據(jù)庫的備份是通過應(yīng)用系統(tǒng)發(fā)起的,如果是非應(yīng)用系統(tǒng)發(fā)起的備份操作,則是管理員周期性的備份行為,存在一定的規(guī)律。如果備份操作與歷史基線相比,在時間或頻次等特征上出現(xiàn)了顯著的差異,那么在備份過程中可能會暴露重要數(shù)據(jù),造成敏感信息的泄露。通過創(chuàng)建數(shù)據(jù)庫備份操作的基線,可以檢測當(dāng)前備份操作是否與基線偏離來檢測該場景。
針對該階段梳理出的場景包括:從非應(yīng)用系統(tǒng)發(fā)起的數(shù)據(jù)庫備份操作異常,用戶非授權(quán)數(shù)據(jù)備份,用戶備份行為背離其日常行為軌跡。
3.7 數(shù)據(jù)銷毀
數(shù)據(jù)銷毀階段指的是在數(shù)據(jù)不再提供應(yīng)有的價值時對數(shù)據(jù)進(jìn)行永久刪除或銷毀處理,其目的是防止被人非法竊取。在這個階段,敏感存儲設(shè)備使用完成后未進(jìn)行數(shù)據(jù)抹除或者未按照密級信息處理的要求進(jìn)行閉環(huán)處理等都可能導(dǎo)致數(shù)據(jù)泄露。
場景舉例說明:銷毀數(shù)據(jù)檢查不合規(guī),指未能按照規(guī)定的安全要求和程序進(jìn)行數(shù)據(jù)銷毀的情況。這可能包括錯誤地執(zhí)行數(shù)據(jù)銷毀過程,未能驗(yàn)證銷毀的數(shù)據(jù)完整性或未能記錄銷毀操作的詳細(xì)信息等。這種情況可能導(dǎo)致敏感數(shù)據(jù)被恢復(fù)、重建或未經(jīng)授權(quán)的訪問,從而導(dǎo)致數(shù)據(jù)泄露和安全風(fēng)險的增加。通過數(shù)據(jù)銷毀日志可檢測該場景。
針對該階段梳理出的場景包括:銷毀數(shù)據(jù)檢查不合規(guī),用戶申請銷毀敏感信息載體長時間未閉環(huán),商密文件保密期限超期長時間未銷毀。
4、技術(shù)實(shí)現(xiàn)
采用基于分析規(guī)則的流式實(shí)時分析和基于 AI檢測的離線行為建模分析兩種方法對數(shù)據(jù)泄露場景進(jìn)行檢測。
基于分析規(guī)則的流式實(shí)時分析方法適用于實(shí)時監(jiān)測和響應(yīng)場景,通過定義和應(yīng)用預(yù)先設(shè)定的規(guī)則來檢測異常行為。這種方法可以快速識別已知的模式和規(guī)則,具有實(shí)時性高和響應(yīng)性強(qiáng)的特點(diǎn)。然而,基于規(guī)則的方法在應(yīng)對未知的、新型的行為時可能會有一定的局限性。
而基于 AI 檢測的離線行為建模分析方法則可以處理更復(fù)雜和隱蔽的異常行為。利用統(tǒng)計(jì)學(xué)、離線異常檢測等技術(shù),該方法可以通過分析大量的數(shù)據(jù)和學(xué)習(xí)正常行為模式來檢測異常。它可以自動識別未知的異常行為,具有較高的準(zhǔn)確性和自適應(yīng)性。但由于需要進(jìn)行離線訓(xùn)練和建模,該方法的實(shí)時性可能較差,需要周期性地對模型進(jìn)行更新和調(diào)整。
綜合采用這兩種方法可以充分利用它們的實(shí)時性和準(zhǔn)確性優(yōu)勢。通過基于分析規(guī)則的實(shí)時分析及時發(fā)現(xiàn)已知的異常行為,以及通過基于 AI 檢測的離線行為建模分析處理復(fù)雜和未知的行為,提高檢測的準(zhǔn)確性和覆蓋范圍,實(shí)現(xiàn)全面的場景檢測。
4.1 基于分析規(guī)則的流式實(shí)時分析
基于分析規(guī)則的流式實(shí)時分析是通過復(fù)雜事件處理引擎(Complex Event Processing)進(jìn)行規(guī)則匹配和響應(yīng),識別已知模式的異常行為和違規(guī)行為的過程,屬于最經(jīng)典和傳統(tǒng)的一種關(guān)聯(lián)分析技術(shù)。
本文選用開源 Esper 引擎對數(shù)據(jù)進(jìn)行處理,Esper 是一種用于復(fù)雜事件處理和流分析的引擎,具有可擴(kuò)展性強(qiáng),內(nèi)存效率高,內(nèi)存計(jì)算低延遲、高吞吐、實(shí)時流處理的特點(diǎn)。Esper 提供了一種事件處理語言(Event Processing Language,EPL),它是一種用于處理基于時間的高頻事件數(shù)據(jù)的聲明性語言,可實(shí)現(xiàn)和擴(kuò)展 sql 標(biāo)準(zhǔn),并支持針對事件和時間的豐富表達(dá)式 ,對于大量事件的處理,能夠用最短的時間做出反應(yīng),觸發(fā)相應(yīng)的操作,如圖 2所示。
圖 2 Esper 數(shù)據(jù)處理流程
下面以多次登錄失敗后成功登錄操作系統(tǒng)(疑似暴力破解)并打印敏感信息的場景為例,介紹利用分析規(guī)則檢驗(yàn)異常的過程,如圖 3 所示。
圖 3 基于分析規(guī)則的檢測
(1)編寫規(guī)則。利用 EPL 語句編寫事件規(guī)則,規(guī)則邏輯如下:如果在 10 min(可配置)內(nèi)獲取到連續(xù) 4 次(可配置)登錄結(jié)果為失敗的登錄日志、1 次結(jié)果為成功的日志,之后在接下來的 10 min(可配置)之內(nèi)又獲取到在該設(shè)備打印敏感信息的打印審計(jì)日志,則產(chǎn)生“多次登錄失敗后成功登錄操作系統(tǒng)并打印敏感信息”安全事件。
(2)注冊規(guī)則。Esper 引擎在處理數(shù)據(jù)時依賴EPL 的定義,EPL 解析后會注冊到規(guī)則引擎中。對于基于時間窗的規(guī)則語句,Esper 會將歷史數(shù)據(jù)緩存在歷史數(shù)據(jù)庫中,供引擎處理。
(3)發(fā)生登錄及打印行為。用戶發(fā)生了登錄及打印行為,由安全登錄系統(tǒng)和打印刻錄監(jiān)控系統(tǒng)記錄日志。包含登錄時間、登錄 / 打印 IP、登錄動作(登錄、登出)、操作結(jié)果(成功、失敗)、文件密級等信息。
(4)獲取日志。采集日志之后經(jīng)范式化處理獲取到標(biāo)準(zhǔn)的安全登錄日志和打印審計(jì)日志,形成實(shí)時數(shù)據(jù)流。
(5)產(chǎn)生事件。實(shí)時數(shù)據(jù)流經(jīng)過事件流適配器接收后,交由 Esper 引擎進(jìn)行處理,如果命中之前注冊的規(guī)則,則處理過后交由輸出適配器發(fā)給外部程序。按照事先定義的邏輯,產(chǎn)生對應(yīng)的安全事件。例如 10 min 內(nèi)發(fā)生了 4 次登錄失敗之后又登錄成功的行為,緊接著的 3 min 內(nèi)又發(fā)生了打印核心商密文件的行為,則命中規(guī)則,產(chǎn)生“多次登錄失敗后成功登錄操作系統(tǒng)并打印敏感信息”事件。
4.2 基于 AI 檢測的離線行為建模分析
利用基于 AI 檢測的離線行為建模分析進(jìn)行異常檢測的方法分為兩個階段,即 AI 行為建模、AI異常行為檢測。
4.2.1 AI 行為建模
AI 行為建模是在用戶存量離線行為數(shù)據(jù)下的模型訓(xùn)練,其利用統(tǒng)計(jì)學(xué)、離群異常檢測等技術(shù),通過對用戶歷史行為數(shù)據(jù)多視角地自動建模學(xué)習(xí),訓(xùn)練用戶行為模式的模型。使用定時器方法,只需收集一定時間的歷史數(shù)據(jù),啟動定時任務(wù)即可實(shí)現(xiàn)模型的自動迭代更新。本文使用的建模流程如圖 4 所示。
圖 4 AI 行為建模流程
在行為建模中采用了統(tǒng)計(jì)算法和離群檢測算法,分別對單維行為特征數(shù)據(jù)和多維行為特征數(shù)據(jù)進(jìn)行模型訓(xùn)練。
統(tǒng)計(jì)算法:針對數(shù)據(jù)內(nèi)容確定的單維行為特征,可以利用高斯模型建立異常檢測基線模型。例如,對于打印行為,如果需要單獨(dú)考量每項(xiàng)指標(biāo)(例如打印頁數(shù)、打印頻度)的變化情況,可針對每一項(xiàng)指標(biāo)建立基線模型?;€模型包括個體基線和群組基線。
離群檢測算法:針對需要綜合多個行為特征共同權(quán)衡才能判斷異常的情況,采用無監(jiān)督的機(jī)器學(xué)習(xí)算法進(jìn)行學(xué)習(xí),如 KMeans、BIRCH 等。比如判別某次 SSH 遠(yuǎn)程登錄是否異常,需考慮登錄方式、登錄狀態(tài)、登錄用戶等多個行為特征來綜合研判,則使用該方法進(jìn)行建模。
4.2.2 AI 異常行為檢測
AI 異常行為檢測是利用 AI 行為建模訓(xùn)練輸出的模型,對用戶的實(shí)時行為進(jìn)行監(jiān)控。通過比對模型,分析用戶的“非正常”行為模式來鎖定內(nèi)部的潛在威脅。AI 異常行為實(shí)時檢測流程如圖 5 所示。
圖 5 AI 異常行為實(shí)時檢測流程
下面以偏離個人基線的異常打印為例,介紹其分析過程。
第 1 個階段為行為建模,具體如圖 6 所示。
圖 6 階段一行為建模
(1)算法配置。該場景采用高斯算法對打印審計(jì)數(shù)據(jù)建模。高斯算法又稱為正態(tài)分布算法,該算法根據(jù)樣本數(shù)據(jù)的均值、方差,得到分析對象的基線。其優(yōu)點(diǎn)在于能夠很好地處理噪聲和異常值。需要配置以下內(nèi)容:
①篩選的日志類型,其目的是選取合適的數(shù)據(jù)集,該場景設(shè)置的日志類型為打印控制審計(jì)的日志。
②數(shù)據(jù)集的聚合字段名稱,設(shè)置為人員唯一編號。
③需要提取的特征字段名稱,例如打印數(shù)量、打印頻次、打印時間等。
④異常判斷依據(jù)的閾值,一般來說,可以選擇均值加減幾倍方差的范圍作為異常值的判斷區(qū)間。例如,選擇均值加減 3 倍方差的范圍,即如果某次打印數(shù)量超過均值加減 3 倍方差的范圍,則被視為異常行為。
算法配置完成后,啟動周期性的定時任務(wù)等待數(shù)據(jù)采集入庫后進(jìn)行模型訓(xùn)練。
(2)收集數(shù)據(jù)。采集一段時間用戶打印文件的審計(jì)日志,其中包含算法配置階段配置的特征字段,例如打印數(shù)量、打印頻次、打印時間等。
(3)模型訓(xùn)練。將篩選出的打印日志以人員唯一編號分組聚合,對每個人員的打印文件數(shù)量訓(xùn)練數(shù)據(jù)構(gòu)建基線模型。
(4)生成基線。這里選取“天”為時間粒度分隔,基線模型由歷史行為數(shù)據(jù)中每天的基線值組成。對訓(xùn)練數(shù)據(jù)每個月份中每一天的打印文件數(shù)量分別做均值和方差計(jì)算,由均值加 3 倍方差的計(jì)算公式得到該點(diǎn)的基線值,例如將每個月 1 日的打印文件數(shù)量數(shù)據(jù)集合做均值和方差計(jì)算,根據(jù)上述基線值計(jì)算方式得到基線模型中 1 號這個點(diǎn)的基線值,基線模型其余點(diǎn)的計(jì)算方式相同,基線模型如圖 7所示。
圖 7 基于 Gaussian 分布算法的基線模型
第 2 個階段為異常檢測,具體如圖 8 所示。
圖 8 階段二異常檢測
(1)采集數(shù)據(jù)。采集實(shí)時打印數(shù)據(jù),采集到的數(shù)據(jù)進(jìn)入 AI 分析引擎。
(2)異常檢測。根據(jù)算法配置的閾值判斷進(jìn)入 AI 分析引擎的實(shí)時數(shù)據(jù)是否滿足異常行為的條件。例如,將某用戶實(shí)時打印日志中的打印數(shù)量與該用戶打印數(shù)量基線模型中對應(yīng)時間點(diǎn)的基線值進(jìn)行比對,如果超過模型對應(yīng)點(diǎn)的基線值,如圖 9 所示,則判定為異常。
圖 9 偏離基線的異常檢測
(3)產(chǎn)生事件。生成“偏離個人基線的異常打印”安全事件。
5、結(jié)? 語
本文通過對具體場景進(jìn)行檢測的驗(yàn)證實(shí)驗(yàn),成功證明了基于行為分析的內(nèi)網(wǎng)數(shù)據(jù)泄露場景檢測方法的可行性和有效性。目前已將這些研究成果成功應(yīng)用于數(shù)據(jù)防泄露監(jiān)測平臺,取得了令人滿意的效果,為解決內(nèi)網(wǎng)數(shù)據(jù)防泄露問題提供了一種新的研究思路和實(shí)踐方法。在未來的研究中將進(jìn)一步改進(jìn)和優(yōu)化這些方法,以適應(yīng)不斷變化的內(nèi)網(wǎng)環(huán)境和數(shù)據(jù)泄露威脅。
引用格式:劉慧 , 李軍 , 劉鑒竹 . 基于行為分析的內(nèi)網(wǎng)數(shù)據(jù)防泄露場景研究與技術(shù)實(shí)現(xiàn) [J]. 通信技術(shù) ,2023,56(12):1418-1427.
作者簡介 >>>劉? 慧,女,碩士,主要研究方向?yàn)樾畔踩?、?shù)據(jù)挖掘、數(shù)據(jù)標(biāo)準(zhǔn)化;李? 軍, 男, 學(xué) 士, 主 要研究方向?yàn)榫W(wǎng)絡(luò)安全管理與咨詢;劉鑒竹,男,碩士,主要研究方向?yàn)閿?shù)據(jù)挖掘、異常檢測。選自《通信技術(shù)》2023年第12期(為便于排版,已省去原文參考文獻(xiàn))
來源:信息安全與通信保密雜志社