本發(fā)明屬于惡意軟件防護技術(shù)領(lǐng)域::,涉及一種基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測方法。背景技術(shù):::惡意軟件是指在未明確提示用戶或未經(jīng)用戶許可的情況下,故意編制或設(shè)置的,對網(wǎng)絡(luò)或系統(tǒng)會產(chǎn)生威脅或潛在威脅的計算機軟件。常見的惡意軟件有計算機**(簡稱**)、特洛伊木馬(簡稱木馬)、計算機蠕蟲(簡稱蠕蟲)、后門、邏輯**等。惡意軟件可能在用戶不知情的情況下竊取計算機用戶的信息和隱私,也可能非法獲得計算機系統(tǒng)和網(wǎng)絡(luò)資源的控制,破壞計算機和網(wǎng)絡(luò)的可信性、完整性和可用性,從而為惡意軟件控制者謀取非法利益。騰訊安全發(fā)布的《2017年度互聯(lián)網(wǎng)安全報告》顯示,2017年騰訊電腦管家pc端總計攔截**近30億次,平均每月攔截木馬**近,共發(fā)現(xiàn)**或木馬***。這些數(shù)目龐大、名目繁多的惡意軟件侵蝕著我國的***、經(jīng)濟、文化、***等各個領(lǐng)域的信息安全,帶來了前所未有的挑戰(zhàn)。當(dāng)前的反**軟件主要采用基于特征碼的檢測方法,這種方法通過對代碼進行充分研究,獲得惡意軟件特征值(即每種惡意軟件所獨有的十六進制代碼串),如字節(jié)序列、特定的字符串等,通過匹配查找軟件中是否包含惡意軟件特征庫中的特征碼來判斷其是否為惡意軟件。覆蓋軟件功能與性能的多維度檢測方案設(shè)計與實施!第三方 軟件測試報告
第三方軟件檢測機構(gòu)在開展第三方軟件測試的過程中,需要保持測試整體的嚴謹性,也需要對測試結(jié)果負責(zé)并確保公平公正性。所以,在測試過程中,軟件測試所使用的測試工具也是很重要的一方面。我們簡單介紹一下在軟件檢測過程中使用的那些軟件測試工具。眾所周知,軟件測試的參數(shù)項目包括功能性、性能、安全性等參數(shù),而其中出具軟件測試報告主要的就是性能測試和安全測試所需要使用到的工具了。一、軟件測試性能測試工具這個參數(shù)的測試工具有l(wèi)oadrunner,jmeter兩大主要工具,國產(chǎn)化性能測試軟件目前市場并未有比較大的突破,其中l(wèi)oadrunner是商業(yè)軟件測試工具,jmeter為開源社區(qū)版本的性能測試工具。從第三方軟件檢測機構(gòu)的角度上來說,是不太建議使用開源測試工具的。首先,開源測試工具并不能確保結(jié)果的準確性,雖然技術(shù)層面上來說都可以進行測試,但是因為開源更多的需要考量軟件測試人員的測試技術(shù)如何進行使用,涉及到了人為因素的影響,一般第三方軟件檢測機構(gòu)都會使用loadrunner作為性能測試的工具來進行使用。而loadrunner被加拿大的一家公司收購以后,在整個中國市場區(qū)域的銷售和營銷都以第三方軟件檢測機構(gòu)為基礎(chǔ)來開展工作。上海負責(zé)院感軟件三方軟件測評基于 AI 視覺識別的自動化檢測系統(tǒng),助力艾策實現(xiàn)生產(chǎn)線上的零缺陷品控目標!
評審步驟以及評審記錄機制。3)評審項由上層****。通過培訓(xùn)參加評審的人員,使他們理解和遵循相牢的評審政策,評審步驟。(II)建立測試過程的測量程序測試過程的側(cè)量程序是評價測試過程質(zhì)量,改進測試過程的基礎(chǔ),對監(jiān)視和控制測試過程至關(guān)重要。測量包括測試進展,測試費用,軟件錯誤和缺陷數(shù)據(jù)以及產(chǎn)品淵量等。建立淵試測量程序有3個子目標:1)定義**范圍內(nèi)的測試過程測量政策和目標。2)制訂測試過程測量計劃。測量計劃中應(yīng)給出收集,分析和應(yīng)用測量數(shù)據(jù)的方法。3)應(yīng)用測量結(jié)果制訂測試過程改進計劃。(III)軟件質(zhì)量評價軟件質(zhì)量評價內(nèi)容包括定義可測量的軟件質(zhì)量屬性,定義評價軟件工作產(chǎn)品的質(zhì)量目標等項工作。軟件質(zhì)量評價有2個子目標:1)管理層,測試組和軟件質(zhì)量保證組要制訂與質(zhì)量有關(guān)的政策,質(zhì)量目標和軟件產(chǎn)品質(zhì)量屬性。2)測試過程應(yīng)是結(jié)構(gòu)化,己測量和己評價的,以保證達到質(zhì)量目標。第五級?優(yōu)化,預(yù)防缺陷和質(zhì)量控制級由于本級的測試過程是可重復(fù),已定義,已管理和己測量的,因此軟件**能夠優(yōu)化調(diào)整和持續(xù)改進測試過程。測試過程的管理為持續(xù)改進產(chǎn)品質(zhì)量和過程質(zhì)量提供指導(dǎo),并提供必要的基礎(chǔ)設(shè)施。優(yōu)化,預(yù)防缺陷和質(zhì)量控制級有3個要實現(xiàn)的成熟度目標:。
在不知道多長的子序列能更好的表示可執(zhí)行文件的情況下,只能以固定窗口大小在字節(jié)碼序列中滑動,產(chǎn)生大量的短序列,由機器學(xué)習(xí)方法選擇可能區(qū)分惡意軟件和良性軟件的短序列作為特征,產(chǎn)生短序列的方法叫n-grams?!?80074ff13b2”的字節(jié)碼序列,如果以3-grams產(chǎn)生連續(xù)部分重疊的短序列,將得到“080074”、“0074ff”、“74ff13”、“ff13b2”四個短序列。每個短序列特征的權(quán)重表示有多種方法。**簡單的方法是如果該短序列在具體樣本中出現(xiàn),就表示為1;如果沒有出現(xiàn),就表示為0,也可以用。本實施例采用3-grams方法提取特征,3-grams產(chǎn)生的短序列非常龐大,將產(chǎn)生224=(16,777,216)個特征,如此龐大的特征集在計算機內(nèi)存中存儲和算法效率上都是問題。如果短序列特征的tf較小,對機器學(xué)習(xí)可能沒有意義,選取了tf**高的5000個短序列特征,計算每個短序列特征的,每個短序列特征的權(quán)重是判斷其所在軟件樣本是否為惡意軟件的依據(jù),也是區(qū)分每個軟件樣本的依據(jù)。(4)前端融合前端融合的架構(gòu)如圖4所示,前端融合方式將三種模態(tài)的特征合并,然后輸入深度神經(jīng)網(wǎng)絡(luò),隱藏層的***函數(shù)為relu,輸出層的***函數(shù)是sigmoid,中間使用dropout層進行正則化,防止過擬合,優(yōu)化器。代碼質(zhì)量評估顯示注釋覆蓋率不足30%需加強。
先將訓(xùn)練樣本的dll和api信息特征視圖、格式信息特征視圖以及字節(jié)碼n-grams特征視圖分別輸入至一個深度神經(jīng)網(wǎng)絡(luò)中抽取高等特征表示,然后合并抽取的高等特征表示并將其作為下一個深度神經(jīng)網(wǎng)絡(luò)的輸入進行模型訓(xùn)練,得到多模態(tài)深度集成模型。進一步的,所述多模態(tài)深度集成模型的隱藏層的***函數(shù)采用relu,輸出層的***函數(shù)采用sigmoid,中間使用dropout層進行正則化,優(yōu)化器采用adagrad。進一步的,所述訓(xùn)練得到的多模態(tài)深度集成模型中,用于抽取dll和api信息特征視圖的深度神經(jīng)網(wǎng)絡(luò)包含3個隱含層,且3個隱含層中間間隔設(shè)置有dropout層;用于抽取格式信息特征視圖的深度神經(jīng)網(wǎng)絡(luò)包含2個隱含層,且2個隱含層中間設(shè)置有dropout層;用于抽取字節(jié)碼n-grams特征視圖的深度神經(jīng)網(wǎng)絡(luò)包含4個隱含層,且4個隱含層中間間隔設(shè)置有dropout層;用于輸入合并抽取的高等特征表示的深度神經(jīng)網(wǎng)絡(luò)包含2個隱含層,且2個隱含層中間設(shè)置有dropout層;所述dropout層的dropout率均等于。本發(fā)明實施例的有益效果是,提出了一種基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測方法,應(yīng)用了多模態(tài)深度學(xué)習(xí)方法來融合dll和api、格式結(jié)構(gòu)信息、字節(jié)碼n-grams特征。深圳艾策信息科技:賦能中小企業(yè)的數(shù)字化未來。韶關(guān)軟件檢測報告
數(shù)據(jù)驅(qū)動決策:艾策科技如何提升企業(yè)競爭力。第三方 軟件測試報告
且4個隱含層中間間隔設(shè)置有dropout層。用于輸入合并抽取的高等特征表示的深度神經(jīng)網(wǎng)絡(luò)包含2個隱含層,其***個隱含層的神經(jīng)元個數(shù)是64,第二個神經(jīng)元的隱含層個數(shù)是10,且2個隱含層中間設(shè)置有dropout層。且所有dropout層的dropout率等于。本次實驗使用了80%的樣本訓(xùn)練,20%的樣本驗證,訓(xùn)練50個迭代以便于找到較優(yōu)的epoch值。隨著迭代數(shù)的增加,中間融合模型的準確率變化曲線如圖17所示,模型的對數(shù)損失變化曲線如圖18所示。從圖17和圖18可以看出,當(dāng)epoch值從0增加到20過程中,模型的訓(xùn)練準確率和驗證準確率快速提高,模型的訓(xùn)練對數(shù)損失和驗證對數(shù)損失快速減少;當(dāng)epoch值從30到50的過程中,中間融合模型的訓(xùn)練準確率和驗證準確率基本保持不變,訓(xùn)練對數(shù)損失緩慢下降;綜合分析圖17和圖18的準確率和對數(shù)損失變化曲線,選取epoch的較優(yōu)值為30。確定模型的訓(xùn)練迭代數(shù)為30后,進行了10折交叉驗證實驗。中間融合模型的10折交叉驗證的準確率是%,對數(shù)損失是,混淆矩陣如圖19所示,規(guī)范化后的混淆矩陣如圖20所示。中間融合模型的roc曲線如圖21所示,auc值為,已經(jīng)非常接近auc的**優(yōu)值1。(7)實驗結(jié)果比對為了綜合評估本實施例提出融合方案的綜合性能。第三方 軟件測試報告