阿里達摩院公開“圖像中的文本識別方法、裝置”專利
3月18日消息,天眼查資料顯示,阿里巴巴達摩院(杭州)科技有限公司3月18日公開一項“圖像中的文本識別方法、裝置、設(shè)備及存儲介質(zhì)”專利,申請公布號為CN114202647A,申請日期為2022年2月16日。
該專利摘要顯示,本公開涉及一種圖像中的文本識別方法、裝置、設(shè)備及存儲介質(zhì)。本公開通過獲取目標圖像,并確定該目標圖像中包含至少一行文本的子圖像。進一步,將所述子圖像、以及所述至少一行文本中的每個字符輸入多模態(tài)模型,由于子圖像含有較為直觀且準確的信息,從而使得多模態(tài)模型的輸入中增加了原始視覺信息,使得多模態(tài)模型可以根據(jù)子圖像對文本標注任務(wù)進行增強和指導(dǎo),從而使得多模態(tài)模型可以確定出每個字符較為準確的標簽。
進一步,根據(jù)每個字符的標簽可以對該至少一行文本進行準確的斷句,尤其是對有歧義的文本行的斷句處理效果較好,避免將圖像中的多段文本識別為一段文本,以及避免后續(xù)的文本理解或處理出錯。
近日,阿里巴巴達摩院(杭州)科技有限公司還公開“測試器件以及采用測試器件進行測試的測試方法”、“主題詞確定方法、設(shè)備及存儲介質(zhì)”、“文本識別方法、圖像矯正方法、電子設(shè)備和存儲介質(zhì)”等多項專利。
天眼查資料顯示,阿里巴巴達摩院(杭州)科技有限公司成立于2017年11月7日,法定代表人為周明,注冊資本1000萬人民幣,經(jīng)營范圍包括:技術(shù)服務(wù)、技術(shù)開發(fā)、技術(shù)咨詢、技術(shù)交流、技術(shù)轉(zhuǎn)讓、技術(shù)推廣;軟件開發(fā);專業(yè)設(shè)計服務(wù);翻譯服務(wù)(除依法須經(jīng)批準的項目外,憑營業(yè)執(zhí)照依法自主開展經(jīng)營活動)。
股權(quán)穿透圖顯示,阿里巴巴達摩院(杭州)科技有限公司由阿里巴巴(中國)有限公司全資持股,認繳金額1000萬人民幣。
2、電商號平臺僅提供信息存儲服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責任由作者本人承擔。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn
