先將當(dāng)前軟件樣本件的二進(jìn)制可執(zhí)行文件轉(zhuǎn)換為十六進(jìn)制字節(jié)碼序列,然后采用n-grams方法在十六進(jìn)制字節(jié)碼序列中滑動(dòng),產(chǎn)生大量的連續(xù)部分重疊的短序列特征,提取得到當(dāng)前軟件樣本的二進(jìn)制可執(zhí)行文件的字節(jié)碼n-grams的特征表示。生成軟件樣本的dll和api信息特征視圖,是先統(tǒng)計(jì)所有類別已知的軟件樣本的pe可執(zhí)行文件引用的dll和api信息,從中選取引用頻率**高的多個(gè)dll和api信息;然后判斷當(dāng)前的軟件樣本的導(dǎo)入節(jié)里是否存在選擇出的某個(gè)引用頻率**高的dll和api信息,如存在,則將當(dāng)前軟件樣本的該dll或api信息以1表示,否則將其以0表示,從而對(duì)當(dāng)前軟件樣本的所有dll和api信息進(jìn)行表示形成當(dāng)前軟件樣本的dll和api信息特征視圖。生成軟件樣本的格式信息特征視圖,是從當(dāng)前軟件樣本的pe格式結(jié)構(gòu)信息中選取可能區(qū)分惡意軟件和良性軟件的pe格式結(jié)構(gòu)特征,形成當(dāng)前軟件樣本的格式信息特征視圖。從當(dāng)前軟件樣本的pe格式結(jié)構(gòu)信息中選取可能區(qū)分惡意軟件和良性軟件的pe格式結(jié)構(gòu)特征,是從當(dāng)前軟件樣本的pe格式結(jié)構(gòu)信息中確定存在特定格式異常的pe格式結(jié)構(gòu)特征以及存在明顯的統(tǒng)計(jì)差異的格式結(jié)構(gòu)特征。特定格式異常包括:(1)代碼從**后一節(jié)開始執(zhí)行,(2)節(jié)頭部可疑的屬性,。第三方驗(yàn)證實(shí)際啟動(dòng)速度較廠商宣稱慢0.7秒。軟件系統(tǒng)安全滲透測(cè)試
幫助客戶提升內(nèi)部技術(shù)團(tuán)隊(duì)能力。例如,某三甲醫(yī)院在采用艾策科技的醫(yī)療信息化系統(tǒng)檢測(cè)方案后,不僅系統(tǒng)漏洞率下降45%,其IT團(tuán)隊(duì)的安全意識(shí)與應(yīng)急響應(yīng)能力也提升。技術(shù)創(chuàng)新未來方向艾策科技創(chuàng)始人兼CTO表示:“作為軟件檢測(cè)公司,我們始終將技術(shù)創(chuàng)新視為競(jìng)爭(zhēng)力。未來,公司將重點(diǎn)投入AI算法優(yōu)化、邊緣計(jì)算檢測(cè)等前沿領(lǐng)域,為電力能源、政企單位等行業(yè)提供更高效、更智能的質(zhì)量保障服務(wù)?!鄙钲诎咝畔⒖萍加邢薰臼且患伊⒆阌诨浉郯拇鬄硡^(qū),依托信息技術(shù)產(chǎn)業(yè),面向全國(guó)客戶提供專業(yè)、可靠服務(wù)的第三方CMACNAS檢測(cè)機(jī)構(gòu)。在檢測(cè)服務(wù)過程中,公司始終堅(jiān)持以客戶需求為本,秉承公平公正的第三方檢測(cè)要求,遵循國(guó)家檢測(cè)標(biāo)準(zhǔn)規(guī)范,確保檢測(cè)數(shù)據(jù)和結(jié)果準(zhǔn)確可靠,運(yùn)用前沿A人工智能技術(shù)提高檢測(cè)效率。我們追求創(chuàng)造優(yōu)異的社會(huì)價(jià)值,我們致力于打造公司成為第三方檢測(cè)行業(yè)的行業(yè)榜樣。軟件可靠性測(cè)評(píng)報(bào)告收費(fèi)多平臺(tái)兼容性測(cè)試顯示Linux環(huán)境下存在驅(qū)動(dòng)適配問題。
3)pe可選頭部有效尺寸的值不正確,(4)節(jié)之間的“間縫”,(5)可疑的代碼重定向,(6)可疑的代碼節(jié)名稱,(7)可疑的頭部***,(8)來自,(9)導(dǎo)入地址表被修改,(10)多個(gè)pe頭部,(11)可疑的重定位信息,(12)把節(jié)裝入到vmm的地址空間,(13)可選頭部的sizeofcode域取值不正確,(14)含有可疑標(biāo)志。存在明顯的統(tǒng)計(jì)差異的格式結(jié)構(gòu)特征包括:(1)無(wú)證書表;(2)調(diào)試數(shù)據(jù)明顯小于正常文件,(3).text、.rsrc、.reloc和.rdata的characteristics屬性異常,(4)資源節(jié)的資源個(gè)數(shù)少于正常文件。生成軟件樣本的字節(jié)碼n-grams特征視圖,是統(tǒng)計(jì)了每個(gè)短序列特征的詞頻(termfrequency,tf),即該短序列特征在軟件樣本中出現(xiàn)的頻率。先從當(dāng)前軟件樣本的所有短序列特征中選取詞頻tf**高的多個(gè)短序列特征;然后計(jì)算選取的每個(gè)短序列特征的逆向文件頻率idf與詞頻tf的乘積,并將其作為選取的每個(gè)短序列特征的特征值,,表示該短序列特征表示其所在軟件樣本的能力越強(qiáng);**后在選取的詞頻tf**高的多個(gè)短序列特征中選取,生成字節(jié)碼n-grams特征視圖。:=tf×idf;tf(termfrequency)是詞頻,定義如下:其中,ni,j是短序列特征i在軟件樣本j中出現(xiàn)的次數(shù),∑knk,j指軟件樣本j中所有短序列特征出現(xiàn)的次數(shù)之和。
此外格式結(jié)構(gòu)信息具有明顯的語(yǔ)義信息,但基于格式結(jié)構(gòu)信息的檢測(cè)方法沒有提取決定軟件行為的代碼節(jié)和數(shù)據(jù)節(jié)信息作為特征。某一種類型的特征都從不同的視角反映刻畫了可執(zhí)行文件的一些性質(zhì),字節(jié)碼n-grams、dll和api信息、格式結(jié)構(gòu)信息都部分捕捉到了惡意軟件和良性軟件間的可區(qū)分信息,但都存在著一定的局限性,不能充分、綜合、整體的表示可執(zhí)行文件的本質(zhì),使得檢測(cè)結(jié)果準(zhǔn)確率不高、可靠性低、泛化性和魯棒性不佳。此外,惡意軟件通常偽造出和良性軟件相似的特征,逃避反**軟件的檢測(cè)。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例的目的在于提供一種基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測(cè)方法,以解決現(xiàn)有采用二進(jìn)制可執(zhí)行文件的單一特征類型進(jìn)行惡意軟件檢測(cè)的檢測(cè)方法檢測(cè)準(zhǔn)確率不高、檢測(cè)可靠性低、泛化性和魯棒性不佳的問題,以及其難以檢測(cè)出偽造良性軟件特征的惡意軟件的問題。本發(fā)明實(shí)施例所采用的技術(shù)方案是,基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測(cè)方法,按照以下步驟進(jìn)行:步驟s1、提取軟件樣本的二進(jìn)制可執(zhí)行文件的dll和api信息、pe格式結(jié)構(gòu)信息以及字節(jié)碼n-grams的特征表示,生成軟件樣本的dll和api信息特征視圖、格式信息特征視圖以及字節(jié)碼n-grams特征視圖。代碼質(zhì)量評(píng)估顯示注釋覆蓋率不足30%需加強(qiáng)。
等價(jià)類劃分法將不能窮舉的測(cè)試過程進(jìn)行合理分類,從而保證設(shè)計(jì)出來的測(cè)試用例具有完整性和**性。有數(shù)據(jù)輸入的地方,可以使用等價(jià)類劃分法。從大量數(shù)據(jù)中挑選少量**數(shù)據(jù)進(jìn)行測(cè)試有效等價(jià)類:符合需求規(guī)格說明書規(guī)定的數(shù)據(jù)用來測(cè)試功能是否正確實(shí)現(xiàn)無(wú)效等價(jià)類:不合理的輸入數(shù)據(jù)**—用來測(cè)試程序是否有強(qiáng)大的異常處理能力(健壯性)使用**少的測(cè)試數(shù)據(jù),達(dá)到**好的測(cè)試質(zhì)量邊界值分析法對(duì)輸入或輸出的邊界值進(jìn)行測(cè)試的一種黑盒測(cè)試方法。是作為對(duì)等價(jià)類劃分法的補(bǔ)充,這種情況下,其測(cè)試用例來自等價(jià)類的邊界。邊界點(diǎn)1、邊界是指相對(duì)于輸入等價(jià)類和輸出等價(jià)類而言,稍高于、稍低于其邊界值的一些特定情況。2、邊界點(diǎn)分為上點(diǎn)、內(nèi)點(diǎn)和離點(diǎn)。如果是范圍[1,100]需要選擇0,1,2,50,99,100,101如果是個(gè)數(shù)**多20個(gè)[0,20]需要測(cè)0,10,20,-1,21因果圖分析法用畫圖的方式表達(dá)輸入條件和輸出結(jié)果之間的關(guān)系。1恒等2與3或4非5互斥1個(gè)或者不選6***必須是1個(gè)7包含可以多選不能不選8要求如果a=1,則要求b必須是1,反之如果a=0時(shí),b的值無(wú)所謂9**關(guān)系當(dāng)a=1時(shí),要求b必須為0;而當(dāng)a=0時(shí)。從傳統(tǒng)到智能:艾策科技助力制造業(yè)升級(jí)之路。軟件開發(fā)的安全評(píng)測(cè)
人工智能在金融領(lǐng)域的應(yīng)用:艾策科技的實(shí)踐案例。軟件系統(tǒng)安全滲透測(cè)試
每一種信息的來源或者形式,都可以稱為一種模態(tài)。例如,人有觸覺,聽覺,視覺,嗅覺。多模態(tài)機(jī)器學(xué)習(xí)旨在通過機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)處理和理解多源模態(tài)信息的能力。多模態(tài)學(xué)習(xí)從1970年代起步,經(jīng)歷了幾個(gè)發(fā)展階段,在2010年后***步入深度學(xué)習(xí)(deeplearning)階段。在某種意義上,深度學(xué)習(xí)可以被看作是允許我們“混合和匹配”不同模型以創(chuàng)建復(fù)雜的深度多模態(tài)模型。目前,多模態(tài)數(shù)據(jù)融合主要有三種融合方式:前端融合(early-fusion)即數(shù)據(jù)水平融合(data-levelfusion)、后端融合(late-fusion)即決策水平融合(decision-levelfusion)以及中間融合(intermediate-fusion)。前端融合將多個(gè)**的數(shù)據(jù)集融合成一個(gè)單一的特征向量空間,然后將其用作機(jī)器學(xué)習(xí)算法的輸入,訓(xùn)練機(jī)器學(xué)習(xí)模型,如圖1所示。由于多模態(tài)數(shù)據(jù)的前端融合往往無(wú)法充分利用多個(gè)模態(tài)數(shù)據(jù)間的互補(bǔ)性,且前端融合的原始數(shù)據(jù)通常包含大量的冗余信息。因此,多模態(tài)前端融合方法常常與特征提取方法相結(jié)合以剔除冗余信息,基于領(lǐng)域經(jīng)驗(yàn)從每個(gè)模態(tài)中提取更高等別的特征表示,或者應(yīng)用深度學(xué)習(xí)算法直接學(xué)習(xí)特征表示,然后在特性級(jí)別上進(jìn)行融合。后端融合則是將不同模態(tài)數(shù)據(jù)分別訓(xùn)練好的分類器輸出決策進(jìn)行融合,如圖2所示。軟件系統(tǒng)安全滲透測(cè)試