TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025128016
公報種別
公開特許公報(A)
公開日
2025-09-02
出願番号
2025006598
出願日
2025-01-17
発明の名称
画像方向識別方法と画像方向識別モデルおよび記憶媒体
出願人
株式会社リコー
代理人
弁理士法人ITOH
主分類
G06T
7/60 20170101AFI20250826BHJP(計算;計数)
要約
【課題】本発明は、画像方向識別の方法とモデルおよび記憶媒体を提供する。
【解決手段】画像方向識別方法は、識別する対象画像から文字領域を検出し、前記文字領域毎の位置座標と領域特徴を取得し;前記位置座標に基づいて、前記文字領域の前記対象画像における画像特徴を特定して前記領域特徴と融合して、前記文字領域の第1の融合特徴を生成し、前記第1の融合特徴に基づいて、前記文字領域のテキスト行分類結果を生成し;前記文字領域毎に、位置特徴と形態特徴を取得し、前記位置特徴と前記形態特徴に基づいて、前記テキスト行分類結果に対して融合を行い、前記対象画像の方向識別結果を生成することを含む。本発明によれば、画像方向識別の正確性が向上する。
【選択図】図2
特許請求の範囲
【請求項1】
コンピュータが実行する画像方向識別方法であって、
識別する対象画像から文字領域を検出し、前記文字領域毎の位置座標と領域特徴を取得し;
前記位置座標に基づいて、前記文字領域の前記対象画像における画像特徴を特定して前記領域特徴と融合して、前記文字領域の第1の融合特徴を生成し、前記第1の融合特徴に基づいて、前記文字領域のテキスト行分類結果を生成し;
前記文字領域毎に、位置特徴と形態特徴を取得し、前記位置特徴と前記形態特徴に基づいて、前記テキスト行分類結果に対して融合を行い、前記対象画像の方向識別結果を生成すること、を含む、
ことを特徴とする画像方向識別方法。
続きを表示(約 2,300 文字)
【請求項2】
前記文字領域毎に、位置特徴と形態特徴を取得し、前記位置特徴と前記形態特徴に基づいて、前記テキスト行分類結果に対して融合を行い、前記対象画像の方向識別結果を生成することは、
各文字領域の位置座標とテキスト行分類結果を画像方向識別モジュールに入力し、前記画像方向識別モジュールにより出力される前記対象画像の方向識別結果を得ることを含み、
前記画像方向識別モジュールは、
前記文字領域毎に、前記位置座標に基づいて前記位置特徴と形態特徴を特定し、前記位置特徴と前記形態特徴を融合して第2の融合特徴を生成し、前記第2の融合特徴に基づいて、前記文字領域の重みを生成し;
各文字領域の重みに基づいて、当該文字領域のテキスト行分類結果に対して融合を行い、前記対象画像の方向識別結果を生成する、
ことを特徴とする請求項1に記載される画像方向識別方法。
【請求項3】
前記位置特徴は、極角と参考極角との差分である相対極角と、極径とを含み、
前記形態特徴は、前記文字領域の高さ、幅、面積、輪郭の長さ、質量中心のうちの少なくとも1つを含む、
ことを特徴とする請求項2に記載される画像方向識別方法。
【請求項4】
識別する対象画像から文字領域を検出し、文字領域毎に位置座標と領域特徴を取得することは、
前記対象画像を文字領域検出モジュールに入力し、前記文字領域検出モジュールにより出力される各前記文字領域の位置座標と領域特徴を取得することを含む、
ことを特徴とする請求項2に記載される画像方向識別方法。
【請求項5】
前記位置座標に基づいて、前記文字領域の前記対象画像における画像特徴を特定して前記領域特徴と融合して、前記文字領域の第1の融合特徴を生成し、前記第1の融合特徴に基づいて、前記文字領域のテキスト行分類結果を生成することは、
前記対象画像、および前記文字領域の位置座標と領域特徴を特徴融合およびテキスト行分類モジュールに入力し、前記特徴融合およびテキスト行分類モジュールにより出力される前記文字領域のテキスト行分類結果を生成することを含む、
ことを特徴とする請求項4に記載される画像方向識別方法。
【請求項6】
前記対象画像から文字領域を検出する前に、
文字領域が標記された複数の第1画像を含む第1の訓練データを用いて前記文字領域検出モジュールを予め訓練し;
テキスト行分類結果が標記された複数の第2画像を含む第2の訓練データを訓練された前記文字領域検出モジュールに入力し、前記文字領域検出モジュールにより出力された文字領域の位置座標と領域特徴、および前記第2の訓練データを用いて、前記特徴融合およびテキスト行分類モジュールを予め訓練し;
目標領域において画像方向が標記された複数の第3画像を含む第3の訓練データを取得し;
前記第3の訓練データを訓練された前記文字領域検出モジュールに入力し、かつ前記文字領域検出モジュールにより出力される文字領域の位置座標と領域特徴、および前記第3の訓練データを、訓練された特徴融合およびテキスト行分類モジュールに入力し、前記特徴融合およびテキスト行分類モジュールにより出力されるテキスト行分類結果と前記第3の訓練データを用いて、前記画像方向識別モジュールを訓練する、ことを含む、
ことを特徴とする請求項5に記載される画像方向識別方法。
【請求項7】
識別する対象画像から文字領域を検出し、前記文字領域毎の位置座標と領域特徴を取得する文字領域検出モジュールと、
前記位置座標に基づいて、前記文字領域の前記対象画像における画像特徴を特定して前記領域特徴と融合して、前記文字領域の第1の融合特徴を生成し、前記第1の融合特徴に基づいて、前記文字領域のテキスト行分類結果を生成する特徴融合およびテキスト行分類モジュールと、
前記文字領域毎に、位置特徴と形態特徴を取得し、前記位置特徴と前記形態特徴に基づいて、前記テキスト行分類結果に対して融合を行い、前記対象画像の方向識別結果を生成する画像方向識別モジュールと、を含む、
ことを特徴とする画像方向識別装置。
【請求項8】
前記画像方向識別モジュールは、さらに、
前記文字領域毎に、前記位置座標に基づいて前記位置特徴と形態特徴を特定し、前記文字領域の位置特徴と形態特徴を融合して第2の融合特徴を生成し、前記第2の融合特徴に基づいて、前記文字領域の重みを生成し;
各文字領域の重みに基づいて、当該文字領域のテキスト行分類結果に対して融合を行い、前記対象画像の方向識別結果を生成する、
ことを特徴とする請求項7に記載される画像方向識別装置。
【請求項9】
前記位置特徴は、極角と参考極角との差分である相対極角と、極径とを含み、
前記形態特徴は、前記文字領域の高さ、幅、面積、輪郭の長さ、質量中心のうちの少なくとも1つを含む、
ことを特徴とする請求項8に記載される画像方向識別装置。
【請求項10】
前記文字領域検出モジュールは、さらに、
前記対象画像に対応する画像特徴図を生成し、前記画像特徴図に基づいて前記文字領域を検出して、前記文字領域の位置座標を取得し、かつ前記画像特徴図から前記文字領域に対応する特徴を抽出して当該文字領域の領域特徴とする、
ことを特徴とする請求項8に記載される画像方向識別装置。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は画像処理技術に関し、具体的には画像方向識別の方法と画像方向識別モデル(画像方向識別装置ともいう)および記憶媒体に関する。
続きを表示(約 2,400 文字)
【背景技術】
【0002】
インテリジェントオフィス業務では、ユーザがスキャンしてアップロードしたドキュメント画像に対して、文字識別、例えばOCR(Optical Character Recognition)を行うことがよくある。その際、識別結果の正確さを確保するためには、識別を行う前に画像方向が正方向であることを確保する必要がある。しかし、ユーザがスキャンして生成される画像の方向は様々な要素により、0°、90°、180°、270°の場合があり(そのうち0°は正方向とする)、画像の方向が正方向に限らない。このため、人手またはアルゴリズムによって画像を回転させて正方向しくにしてから識別を行う必要がある。ここでは、文字方向が画像の長辺または短辺に平行であるとし、文字方向が画像の長さ/幅方向に対する微小な傾けを考慮しないものとする。
【0003】
画像方向識別の目的は、画像を正方向に回転させることである。現在、画像方向識別の主要な方法として、深度(深層)畳み込みネットワークを介して画像に対して直接に分類を行う方法がある。しかし、従来の深度畳み込みネットワークは画像全体に対して特徴を抽出し、文字部分がその中での重要な役割を表すことができず、多くのノイズを導入することにより、分類の正確率を低下させ、画像方向識別の正確性が低い。そのため、画像方向識別の正確性を向上させる方法が必要とされている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の少なくとも一つの実施例は、従来技術に画像方向識別の正確性が低い問題を解決可能な画像方向識別方法、モデルおよび記憶媒体を提供する。
【課題を解決するための手段】
【0005】
上記課題を解決するために、まず、本発明の第1の形態は、
識別する対象画像から文字領域を検出し、前記文字領域毎の位置座標と領域特徴を取得し;
前記位置座標に基づいて、前記文字領域の前記対象画像における画像特徴を特定して前記領域特徴と融合して、前記文字領域の第1の融合特徴を生成し、前記第1の融合特徴に基づいて、前記文字領域のテキスト行分類結果を生成し;
前記文字領域毎に、位置特徴と形態特徴を取得し、前記位置特徴と前記形態特徴に基づいて、前記テキスト行分類結果に対して融合を行い、前記対象画像の方向識別結果を生成することを含む、画像方向識別方法を提供する。
【0006】
オプションとして、前記文字領域毎に位置特徴と形態特徴を取得し、前記位置特徴と前記形態特徴に基づいて、テキスト行分類結果に対して融合を行って、前記対象画像の方向識別結果を生成することは、
各文字領域の位置座標とテキスト行分類結果を画像方向識別モジュールに入力し、前記画像方向識別モジュールにより出力される前記対象画像の方向識別結果を得ることを含み、
前記画像方向識別モジュールは、
前記文字領域毎に、前記位置座標に基づいて前記位置特徴と形態特徴を特定し、前記位置特徴と前記形態特徴を融合して第2の融合特徴を生成し、前記第2の融合特徴に基づいて、前記文字領域の重みを生成し;
各文字領域の重みに基づいて、当該文字領域のテキスト行分類結果に対して融合を行い、前記対象画像の方向識別結果を生成する。
【0007】
オプションとして、前記位置特徴は、極角と参考極角との差分である相対極角と、極径とを含み、
前記形態特徴は、前記文字領域の高さ、幅、面積、輪郭の長さ、質量中心の少なくとも1つを含む。
【0008】
オプションとして、識別する対象画像から文字領域を検出し、文字領域毎に位置座標と領域特徴を取得することは、
前記対象画像を文字領域検出モジュールに入力し、前記文字領域検出モジュールにより出力される各前記文字領域の位置座標と領域特徴を取得することを含む。
【0009】
オプションとして、前記位置座標に基づいて、前記文字領域の前記対象画像における画像特徴を特定して前記領域特徴と融合して、前記文字領域の第1の融合特徴を生成し、前記第1の融合特徴に基づいて、前記文字領域のテキスト行分類結果を生成することは、
前記対象画像、および前記文字領域の位置座標と領域特徴を特徴融合およびテキスト行分類モジュールに入力し、前記特徴融合およびテキスト行分類モジュールにより出力される前記文字領域のテキスト行分類結果を生成することを含む。
【0010】
オプションとして、前記画像方向識別方法は、前記対象画像から文字領域を検出する前に、
文字領域が標記された複数の第1画像を含む第1の訓練データを用いて前記文字領域検出モジュールを予め訓練し;
テキスト行分類結果が標記された複数の第2画像を含む第2の訓練データを訓練された前記文字領域検出モジュールに入力し、前記文字領域検出モジュールにより出力された文字領域の位置座標と領域特徴、および前記第2の訓練データを用いて、前記特徴融合およびテキスト行分類モジュールを予め訓練し;
目標領域において画像方向が標記された複数の第3画像を含む第3の訓練データを取得し;
前記第3の訓練データを訓練された前記文字領域検出モジュールに入力し、かつ前記文字領域検出モジュールにより出力される文字領域の位置座標と領域特徴、および前記第3の訓練データを、訓練された特徴融合およびテキスト行分類モジュールに入力し、前記特徴融合およびテキスト行分類モジュールにより出力されるテキスト行分類結果と前記第3の訓練データを用いて、前記画像方向識別モジュールを訓練することを含む。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
株式会社リコー
塗装装置
22日前
株式会社リコー
綴じ装置
1日前
株式会社リコー
ユニット
21日前
株式会社リコー
画像投射装置
14日前
株式会社リコー
液体吐出装置
2日前
株式会社リコー
画像形成装置
13日前
株式会社リコー
画像形成装置
21日前
株式会社リコー
画像形成装置
1か月前
株式会社リコー
画像形成装置
26日前
株式会社リコー
液体塗布装置
22日前
株式会社リコー
画像形成装置
1か月前
株式会社リコー
画像形成装置
6日前
株式会社リコー
水力発電装置
21日前
株式会社リコー
画像形成装置
6日前
株式会社リコー
画像形成装置
2日前
株式会社リコー
履帯式走行体
2日前
株式会社リコー
液体吐出装置
22日前
株式会社リコー
画像形成装置
21日前
株式会社リコー
液体吐出装置
21日前
株式会社リコー
画像形成装置
1日前
株式会社リコー
生体情報測定装置
26日前
株式会社リコー
カラー画像形成装置
7日前
株式会社リコー
印刷装置及び印刷方法
1か月前
株式会社リコー
電子機器および通信方法
21日前
株式会社リコー
炭素繊維含有樹脂組成物
1か月前
株式会社リコー
定着装置及び画像形成装置
28日前
株式会社リコー
現像装置及び画像形成装置
14日前
株式会社リコー
個片モジュールの製造方法
21日前
株式会社リコー
ジョブ設定調整メカニズム
21日前
株式会社リコー
給送装置及び画像形成装置
2日前
株式会社リコー
電源装置及び画像形成装置
1か月前
株式会社リコー
塗装装置、及び塗装システム
6日前
株式会社リコー
検査装置および液体吐出装置
1か月前
株式会社リコー
画像形成装置及び画像形成方法
21日前
株式会社リコー
媒体供給装置及び画像形成装置
28日前
株式会社リコー
液体吐出装置及び液体吐出方法
22日前
続きを見る
他の特許を見る