預(yù)防在線廣告欺詐的世界涉及在未達(dá)到廣告預(yù)算之前就發(fā)現(xiàn)攻擊。這需要連續(xù)流傳輸高頻,大容量數(shù)據(jù)。這就需要建立神經(jīng)網(wǎng)絡(luò)以檢測(cè)廣告欺詐。由于存在信用卡欺詐行為,銀行的請(qǐng)求數(shù)量有限,每天要進(jìn)行100萬(wàn)次調(diào)查。但是,廣告欺詐預(yù)防解決方案需要每秒分析20000個(gè)請(qǐng)求。因此,非常有必要在異常事件發(fā)生時(shí)使用我們的平臺(tái)來(lái)監(jiān)視和警告我們的網(wǎng)絡(luò)安全團(tuán)隊(duì)和廣告客戶。
這聽(tīng)起來(lái)可能并不那么復(fù)雜。但是從我們的經(jīng)驗(yàn)來(lái)看,這絕非易事,為了使我們的客戶認(rèn)真對(duì)待這些警報(bào),它們必須有意義。因此,正確警報(bào)與錯(cuò)誤警報(bào)的比率必須盡可能高。使用標(biāo)準(zhǔn)方法,例如數(shù)據(jù)點(diǎn)的百分比變化例如,每分鐘變化一次,不要考慮趨勢(shì),因此添加的新數(shù)據(jù)流/量將引發(fā)錯(cuò)誤警報(bào)。
簡(jiǎn)單的統(tǒng)計(jì)方法,例如移動(dòng)平均交叉法一種用于時(shí)間序列分析的技術(shù),其中您可以計(jì)算兩次時(shí)間窗的移動(dòng)平均沒(méi)有考慮到季節(jié)性,每日一次,每周一次或每月一次。
ARIMA等更復(fù)雜的統(tǒng)計(jì)模型確實(shí)可以說(shuō)明趨勢(shì)和季節(jié)性,ARIMA是一種使用時(shí)間序列數(shù)據(jù)以更好地理解數(shù)據(jù)集或預(yù)測(cè)未來(lái)趨勢(shì)的統(tǒng)計(jì)分析模型。但是,當(dāng)試圖在預(yù)測(cè)中描述變量多變量之間的復(fù)雜關(guān)系時(shí),這些模型通常不準(zhǔn)確。
這些困難導(dǎo)致我們建立了一個(gè)深層的神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)我們的信號(hào),預(yù)測(cè)下一個(gè)值并在觀察到的實(shí)際值超出模型的誤差范圍即異常或外層時(shí)發(fā)出警報(bào)。從技術(shù)上講,我們?cè)趐ython中構(gòu)建了服務(wù)語(yǔ)言和Google的tensorflow深度學(xué)習(xí)庫(kù)。
該模型是具有雙重堆疊的長(zhǎng)期短期記憶LSTM層的遞歸神經(jīng)網(wǎng)絡(luò),可預(yù)測(cè)下一個(gè)時(shí)間步的信號(hào)值,在本例中,我們使用10分鐘時(shí)間步,將30天歷史網(wǎng)絡(luò)流量分段的數(shù)據(jù)集分為在線廣告欺詐類(lèi)型。
該模型的靈感來(lái)自Egor Korneev出色的中級(jí)帖子,一旦發(fā)現(xiàn)異常,就將其饋送到一個(gè)解釋性模塊,該模塊通過(guò)查詢數(shù)據(jù)庫(kù)獲取異常時(shí)間戳及其附近的不同字段,并將警報(bào)發(fā)送到包含信號(hào)圖表的團(tuán)隊(duì)松弛通道在突出顯示異常的情況下,異常的詳細(xì)信息和指向Kibana儀表板的鏈接已按照說(shuō)明模塊的建議在異常的異常值上進(jìn)行過(guò)濾。
該異常檢測(cè)算法和解釋模塊可發(fā)現(xiàn)大量數(shù)據(jù)的隱藏欺詐模式。我們?yōu)榭蛻舴治龅臄?shù)據(jù)包括,例如,分析一組具有類(lèi)似行為模式的欺詐性遠(yuǎn)程服務(wù)器,特定的數(shù)據(jù)中心/在線服務(wù)/ Web瀏覽器/具有欺詐性流量的地理區(qū)域,而無(wú)論這些欺詐性趨勢(shì)是在用戶端例如,機(jī)器人,DDOS攻擊 ,VPN用戶等或網(wǎng)站例如,點(diǎn)擊劫持,強(qiáng)制刷新等。
例如,這在我們的點(diǎn)擊欺詐產(chǎn)品中使用,可以防止所有付費(fèi)搜索和付費(fèi)社交平臺(tái)上的無(wú)效點(diǎn)擊。
例如,我們發(fā)現(xiàn)了八個(gè)網(wǎng)站,所有網(wǎng)站都建立在同一免費(fèi)論壇的平臺(tái)上,所有網(wǎng)站都復(fù)制了來(lái)自不同網(wǎng)站的內(nèi)容,都使用了相同的網(wǎng)站模板,并且都在巴西圣保羅以外的同一村莊運(yùn)營(yíng)。將它們連接在一起的事實(shí)是,它們?nèi)恐粚⑵?8%的流量歸功于三個(gè)IP,而這三個(gè)IP則歸因于其他七個(gè)站點(diǎn)中的三個(gè)。
在CHEQ,我們正在與在線廣告欺詐作斗爭(zhēng),發(fā)現(xiàn)這些模式使我們既能夠連續(xù)檢查我們的產(chǎn)品是否存在不合理的屏蔽,又能夠不斷開(kāi)發(fā)新功能以適應(yīng)不斷變化的在線廣告欺詐形勢(shì)。沒(méi)錯(cuò),這是一場(chǎng)軍備競(jìng)賽,如果您沒(méi)有前進(jìn),那么您將落后,想了解更多關(guān)于神經(jīng)網(wǎng)絡(luò)的信息,請(qǐng)繼續(xù)關(guān)注中培偉業(yè)。