富士通研究所がデータ認識の新技術を開発

06 10/23

 富士通研究所は、多様なレイアウトの帳票を読み込んで見出しやデータの論理構造を認識する新技術を開発した。昨年4月にe―文書法が施行され、08年度には日本版SOX法への対応が求められている。そうした中で文書のデジタル化は欠かせず、スキャニングおよびOCRシステムが再度注目されている。今回の新技術はレイアウトの定義を不要にし、確率推論を用いた論理構造認識技術を開発することで、人手による入力の手間を省き、帳票データの入力業務コストと時間を短縮できるようにした。来年度には富士通製品に同技術を搭載していく。

 従来のOCR技術は、文字の形を認識して、それをデジタル化するもの。見積書や納品書などの様々な取引先から送付される帳票は、企業名や氏名、金額といった項目のレイアウトや見出し表記は様々で、非定型の帳票をデジタル化するには、それぞれのレイアウトを定義してOCR処理を行う必要があった。
 そして、帳票レイアウトの中の「見出し」と呼ばれる帳票番号などを認識し、その位置から決められた範囲内の文字を認識するが、見出しを正しく認識しないとデータも正しく認識されず、再度入力処理を行う手間がかかっていた。
 今回開発した認識技術は、見積書や申込書などの帳票の種類に応じた論理要素(見出しデータなど)を、文字列の特徴と論理要素間の関係を定義した「論理構造パターン」を知識として用意する。このパターンを認識する帳票に合せて組合せるので、レイアウトの定義が不要になる。
 さらに、文字認識の誤りを類推したり、省略された論理要素を検出することも可能で、階層的な見出しを持つ複雑な帳票でも認識できる。
 富士通研究所が使用している文書のうち20パターンを評価用にテストしたところ、論理構造認識率は91.7%となった。従来の非定形帳票の入力業務に換算すると、作業コストが60%削減できることが分かった。
 大量で定型のデータエントリー業務では専門の業者が担当するが、非定型で突発的に発生するデータ入力処理はほとんどの部門で発生する。そうした作業に対して非常に有効なシステムとなる可能性が高い。来年度には富士通製のe―文書、内部統制関連で使用するOCRソフトやスキャナーへの搭載を目指す。


富士通研究所 http://jp.fujitsu.com/group/labs/