一、智能文字識別技術發展情況
智能文字識別是 AI 領域的一個重要分支,該技術融合了智能圖像處理、基于深度學習的復雜場景文字識別、自然語言處理(NLP)等多項 AI 技術,算法涉及機器學習與深度學習。
1)機器學習與深度學習
機器學習是 AI 的一種底層算法,深度學習是機器學習的一個子集。機器學習的算法是建立在一個樣本數據集上,在沒有明確編程指示下,依靠模式和推理做出預測或決策的數學模型,且可隨著數據量的增加不斷改進算法性能。深度學習是機器學習方法系列的一部分,利用多層神經網絡從大量數據中進行學習。機器學習在處理問題時,需要先人工進行特征提取,然后根據提取后的特征進行分類問題求解;深度學習將特征提取與分類問題求解匯總在一個神經網絡模型中,只需一次輸入即可得到最終的輸出結果,無需手工獲取特征,所以能解決更為復雜的問題,且由數據驅動,有效數據量越大,模型的表現越好。
隨著深度學習出現,AI 算法瓶頸逐步被突破。機器從海量數據庫自行歸納物體特征,按照該特征規律識別物體,圖文識別的精準度得到極大提升。
2)自然語言處理技術
自然語言處理(Natural Language Processing,簡稱為“NLP”)技術是AI的一個子領域,用于分析、理解和生產自然語言,NLP技術實現機器與人溝通的大前提,決定了機器對語言的理解能力。機器學習與深度學習大大推動了NLP技術的發展,使其具備可表達性、可訓練性以及可泛化性。
3)結合深度學習、NLP的智能文字識別技術
將圖像中的文字轉變為機器可讀可處理的字符信息,是機器與現實世界進行視覺交互的重要基礎,催生了光學字符識別(Optical Character Recognition,簡稱為“OCR”)技術。根據中國信息通信研究院、中國人工智能產業發展聯盟與騰訊集團聯合發布的《智能文字識別(OCR)能力測評與應用白皮書》,早期的OCR技術可追溯到1870年,電報技術和為盲人設計的閱讀設備的出現標志著OCR技術的誕生。從2000年開始,在線服務成為OCR的主要業務形態之一,這一階段OCR技術僅在比較規整的印刷體文檔識別上性能良好。2014年以來,隨著深度學習技術在OCR領域的應用,加上海量訓練數據的積累,OCR取得了飛躍性發展,適用范圍明顯擴大。2017年以來,OCR技術越來越多的和自然語言處理技術相融合,形成了智能文字識別技術,增強了對內容的“理解”能力,通過語義信息的關聯,復雜場景下的文字識別能力得到增強。與此同時,隨著圖像處理等技術的發展,能夠將扭曲和畸變的文字圖像進行矯正,也能夠改善OCR性能。OCR通過圖像文字的識別實現信息錄入,有兩大核心優勢,一是提高效率,相比傳統的人工方式,顯著提升信息錄入效率;二是降低成本,通過機器代替人工,可大幅降低人力成本的開銷。因此OCR技術具有較高的實際應用價值,是AI應用中商業推廣落地較快的領域,是AI領域的重要分支。
《中國禁止出口限制出口技術目錄》已將“印刷體漢字識別技術、程序結構、主要算法和源程序、具有交互和自學習功能的脫機手寫漢字識別系統及方法、漢字識別的特征抽取方法和實現文本切分技術的源程序”等納入限制出口的信息處理技術范圍。為落實國務院印發的《新一代人工智能發展規劃》,科技部啟動了實施科技創新2030“新一代人工智能”重大項目,并提出2020年度第一批項目申報指南,其中“復雜版面手寫圖文識別及理解關鍵技術研究”被列入“新一代人工智能共性關鍵技術”。
傳統OCR技術針對特定場景的文字圖像進行建模,受限于手工設計特征的單一表達能力和復雜的處理流程,一旦跳出當前場景,遇到復雜場景,模型就會失效。而基于深度學習、NLP的智能文字識別技術可解決傳統OCR的缺點,靈活應對自然場景下多形態文本以及手寫文本。
圖表:文字智能識別與傳統OCR的區別
二、行業概況
相比傳統簡單文字識別,智能文字識別技術融合圖像處理、OCR、深度學習、NLP等AI技術,具備更多認知與理解能力,可適應多語言、多版式、多樣式等復雜場景,識別準確率大大提升,同時可基于理解能力進一步開發文檔解析、分類、對比、審核等功能,是個人文檔資產管理與企業數字化轉型的關鍵。
從個人用戶角度,用戶對個人文檔資產管理數字化意識和需求不斷增強,合同、名片、發票、筆記等非結構化的紙質文檔通過智能文字識別技術數字化后,用戶可隨時隨地在手機、電腦等多終端進行查詢、管理及分享,解決了紙質文檔不易存儲、分類、查詢或提取關鍵信息等痛點,滿足個人的辦公、求職、學習等不同場景的需求。
從企業客戶角度,企業數字化轉型是將數字技術進行商業化落地,從根本上對業務流程進行優化,智能文字識別技術可將企業運營過程中產生的大量非結構化、非標準化的文檔數據進行提取、存儲、轉化、解析,為企業客戶節省人力成本,提升運營效率,解決了眾多行業存在的人工操作效率低、業務處理流程長,將迎來巨大發展空間。根據Grand View Research報告,全球智能文字識別服務市場規模2022年達106.5億美元,預計2022-2027年復合年均增長率約16.7%。
從下游行業應用來看,金融、物流運輸的市場規模是占比最高的兩個細分行業,且增速也最快,主要由于金融、物流運輸企業在業務流程方面的基礎信息化建設程度、投入意愿相對其他行業來說相對較高,在證照、單據、表格等文檔的智能錄入、分類、比對、審核方面進行降本增效具有較大需求,為智能文字識別技術的商業化快速落地帶來基礎。
分國別來看,2022年,亞太區智能文字識別服務市場規模占全球比重約為22.7%,2022-2027年復合年均增長率預計為全球最高水平,達19.4%。亞太區的高速增長原因主要為:1)中國、印度等部分國家經濟的高速增長,經濟活動的增長一定程度帶來文檔數據與信息量的增長,政府、企業對經濟活動中產生的文檔進行電子化存儲、數據提取、分析挖掘具有巨大需求;2)亞太區域互聯網、智能手機的高速發展推動數據量爆發式增長,智能文字識別作為數字資產管理的關鍵技術,擁有巨大發展前景;3)亞太區近年來對于AI技術研發、產業智能升級的重視,促使智能文字識別技術持續提升,以及推動企業對于此服務的投入。相比北美、歐洲等發達國家和地區,亞太區智能文字識別行業尚處于發展初期,處于高速發展時期。根據相關數據,2022年,中國智能文字識別服務市場規模為人民幣50.4億元,預計2027年市場規模將達人民幣168.9億元,復合年均增長率達27.3%,遠超全球市場總增速。
想了解更多智能文字識別以及OCR識別相關內容,可關注中研網《2024-2029年OCR產業現狀及未來發展趨勢分析報告》。