阿里研發(fā)AI技術(shù)0.15秒識別攔截外語臟話圖
田寧
2021-09-27 15:03
9月27日消息,阿里安全算法團隊宣布,其研發(fā)用于網(wǎng)絡(luò)臟話的AI(OCR)技術(shù),已能識別近30種語言,包括嵌入圖片中的英文、阿拉伯、俄語、法語、西語、日語、韓語、泰語、越南語、波斯語、孟加拉、尼泊爾、僧伽羅、朝鮮、蘇丹、德語、荷蘭語,以及馬來語、塔加洛語、土耳其語、意大利語、印尼語等國語言,甚至還包括三種中國少數(shù)民族語言。
據(jù)了解,在部分國際平臺中,“買家”在商品評論中以英語評論圖罵人,或者在交互場景中,買賣雙方以俄語臟話圖片對陣。國際平臺風控團隊和算法團隊復盤了很多案例,發(fā)現(xiàn)除了多語種臟話,多語種垃圾廣告以及不良信息也會暗藏在圖片中,試圖對抗風控。
阿里安全高級算法工程師沄帆介紹,要識別多語種文字,就要了解各個語言文字特點,以及影響算法識別的問題。每種文字體系都有自己的字體,不同字體會導致同一字符出現(xiàn)字形上的差異,相同的單詞在不同的語種里也可能有不同的含義。
除此之外,還有臟話圖以置換正常字符順序,對抗風控的情況出現(xiàn),即使調(diào)換字符順序,人還是可以輕而易舉地判斷單詞的含義,但這種“攻擊”試圖以打亂字母順序的方式騙過機器識別。
通過一年多努力研究,阿里安全算法團隊對這些點進行了逐個突破,通過改進多語言樣本生成方案與多語種識別模型框架,在多種圖片語言的識別上做到了高識別率,以及做到識別1張臟話圖只需0.15秒的速度。
目前該技術(shù)也已應用在阿里多項國際業(yè)務(wù)中,總體識別準確率可達95%以上,并對各種藝術(shù)字體、復雜背景以及手寫圖進行了針對性識別優(yōu)化。
聲明
1、該內(nèi)容為作者獨立觀點,不代表電商派觀點或立場,文章為作者本人上傳,版權(quán)歸原作者所有,未經(jīng)允許不得轉(zhuǎn)載。
2、電商號平臺僅提供信息存儲服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責任由作者本人承擔。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn
2、電商號平臺僅提供信息存儲服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責任由作者本人承擔。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn

田寧
電商脈搏,媒體前沿洞察。