近期結束的第五屆世界人工智能大會上,合合信息將智能文字識別技術等等搬到了人工智能大會現(xiàn)場,引來了眾多關注。據悉,合合信息擬在科創(chuàng)板上市,支撐其上市的核心技術莫過于智能文字識別技術,這也是人工智能技術的重要分支。
目前,合合信息的智能文字識別技術已應用在諸多領域,例如大家較為熟悉的表格識別。表格識別的需求廣泛存在于個人生活、社會生產之中。高精確度的表格識別技術能夠大幅節(jié)省文件處理時間,是合合信息智能文字識別技術中,圖像處理和復雜場景文字識別技術的重要應用。
在16年的領域深耕中,合合信息智能文字識別技術覆蓋了圖片、PDF格式文檔中多種類的表格識別需求,包括有線表,三線表,無線表等,并且支持合并單元格、多表格并存等復雜情況的識別。
基于分治思想,合合信息引入深度學習技術,將表格識別分為有線表識別和無線表識別兩種方案。有線表識別中,合合信息利用語義分割、角點回歸等技術方案還原有線表,在財報相關表格識別測試中,有線表識別單元格結構準確率高于98%。
無線表識別是表格識別中的難點,教科書上的部分統(tǒng)計表、藥品配方表,都存在框線不完整甚至無框線的情況。無線表缺少表格線,直接套用有線表識別方案無法得到理想的表格結構。合合信息無線表識別采用序列模型、規(guī)則匹配等方案,通過自研模型直接預測表格的邏輯結構,再得到表格的物理結構,在保證表格區(qū)域內容的完整性的同時,檢測準確率較傳統(tǒng)方法顯著提升。
現(xiàn)階段,合合信息智能文字識別技術中的表格識別技術已被應用于以“掃描全能王”為代表的C端APP中,通過“文件轉換excel”功能服務于大眾生活和辦公需求。B端領域中,表格識別技術已落地在保險、銀行、證券等行業(yè)中,應用于合同、銀行流水、物流單據識別等多個場景。
(新媒體責編:pl2022)
聲明:
1、凡本網注明“人民交通雜志”/人民交通網,所有自采新聞(含圖片),如需授權轉載應在授權范圍內使用,并注明來源。
2、部分內容轉自其他媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。
3、如因作品內容、版權和其他問題需要同本網聯(lián)系的,請在30日內進行。電話:010-67683008
人民交通24小時值班手機:17801261553 商務合作:010-67683008轉602 E-mail:zzs@rmjtzz.com
Copyright 人民交通雜志 All Rights Reserved 版權所有 復制必究 百度統(tǒng)計 地址:北京市豐臺區(qū)南三環(huán)東路6號A座四層
增值電信業(yè)務經營許可證號:京B2-20201704 本刊法律顧問:北京京師(蘭州)律師事務所 李大偉
京公網安備 11010602130064號 京ICP備18014261號-2 廣播電視節(jié)目制作經營許可證:(京)字第16597號