Sub-Project 5 : Reliable techniques for scene text recognition in the wild

場景文字充滿在人們的日常生活中,例如街景招牌、佈告、廣告版、道路指標、門牌、車牌、商品包裝、T恤服裝、餐廳menu、書籍文章等。是邁向以人為本之終身資料探勘的重要資訊。未來智慧眼鏡或穿戴裝置將重新引領潮流,例如Facebook一月份發表「我們不回頭」!承諾智慧眼鏡2021年準時問世,並預測在2030年以前將改變傳統互動方式。AI的新一輪技術需要為即將到來的個人化生活資料探勘佈局。而場景文字辨認正是其中促進樂活人生,瞭解周遭生活資訊的一項關鍵技術。

伴隨著深度學習領域的開拓,近來電腦視覺的技術獲得了長足的進展,舉凡人臉、行人、車輛、日常物品、場景外觀、道路建築、衣著、姿態等過去在偵測與辨認上的難題,如今都一一被攻克,甚至在某些功能上有超越人類的趨勢。然而在場景文字方面,電腦視覺技術還處於相對落後的狀態。原因包括:(1)訓練資料標籤困難:單獨場景影像有時即多達數百以上的文字並分散各處,造成資料不易被充分標註而影響深度模型訓練。(2)類別繁多:街景或物品可能同時包括多國文字、如中英文+數字;常用中文即高達數千字,且可能涵蓋各種變化、多樣化的字型字體。(3)在文字區域偵測上,需考慮不同形狀的文字排列、文字傾斜透視、劇烈大小與光線改變、部分遮檔等效應。(4)除了單獨使用視覺資訊外,也需要搭配其它的模態如自然語言處理,方能獲致好的效果。

基於AI中場景文字資訊理解的重要性與複雜性,我們將投入規模化場景文字識別深度模型建置。蒐集大規模具場景文字之影像或視訊並不困難,但為其產生大量且盡量準確的資料標註則是一大難題。雖然近年機器學習中的許多方法都可處理僅有少量標註或部分錯誤標籤的資料,但我們認為並非將這些方法直接用於場景文字的訓練即可解決問題,而是需要將其導入逐步規模化的資料標註流程。特別是將現今所發展的多樣化機器學習技術引入此流程中並持續開發,並藉由相關回饋機制的引導,逐步累積標註的資料量來改進模型訓練的準確性。