TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025132027
公報種別
公開特許公報(A)
公開日
2025-09-10
出願番号
2024029329
出願日
2024-02-29
発明の名称
類似文書検索装置及びプログラム
出願人
大日本印刷株式会社
代理人
個人
,
個人
主分類
G06F
16/907 20190101AFI20250903BHJP(計算;計数)
要約
【課題】文脈に即した文書の検索を可能とした類似文書検索装置及びプログラムを提供する。
【解決手段】類似文書検索サーバ1は、保存文書に有する、複数の項目名と複数の項目名の各々に対応する項目値との組み合わせである複数の項目組を、保存文書に対応付けて記憶した項目組記憶部23と、対象の文書画像から複数の項目組を抽出する項目組抽出部14と、項目組抽出部14が抽出した複数の項目組と、項目組記憶部23に記憶された複数の保存文書の各々に対応した複数の項目組とを用いて文書類似度を算出する類似度算出部15と、を備える。
【選択図】図1
特許請求の範囲
【請求項1】
保存文書に有する、複数の項目名と前記複数の項目名の各々に対応する項目値との組み合わせである複数の項目組を、前記保存文書に対応付けて記憶した項目組記憶部と、
対象文書画像から前記複数の項目組を抽出する項目組抽出手段と、
前記項目組抽出手段が抽出した前記複数の項目組と、前記項目組記憶部に記憶された複数の前記保存文書の各々に対応した前記複数の項目組とを用いて文書類似度を算出する類似度算出手段と、
を備える、類似文書検索装置。
続きを表示(約 1,400 文字)
【請求項2】
請求項1に記載の類似文書検索装置において、
前記類似度算出手段は、前記項目組抽出手段が抽出した前記複数の項目組のうちの前記項目名と、前記項目組記憶部に記憶された複数の前記保存文書の各々に対応した前記複数の項目組のうちの前記項目名との一致度合いを示す前記文書類似度を算出する、類似文書検索装置。
【請求項3】
請求項1又は請求項2に記載の類似文書検索装置において、
前記類似度算出手段は、前記項目組抽出手段が抽出した前記複数の項目組と、前記項目組記憶部に記憶された複数の前記保存文書の各々に対応した前記複数の項目組との組み合わせの一致度合いを示す前記文書類似度を算出する、類似文書検索装置。
【請求項4】
請求項1に記載の類似文書検索装置において、
前記類似度算出手段により算出した前記文書類似度が最も高い前記複数の項目組に対応した前記保存文書を出力する類似文書出力手段を備える、類似文書検索装置。
【請求項5】
請求項4に記載の類似文書検索装置において、
前記類似文書出力手段は、前記類似度算出手段により算出した前記文書類似度が閾値以上の前記複数の項目組に対応した前記保存文書を出力する、類似文書検索装置。
【請求項6】
請求項1に記載の類似文書検索装置において、
前記対象文書画像の入力を受け付ける文書受付手段と、
前記文書受付手段が受け付けた前記対象文書画像から文字列を取得する文字列取得手段と、
前記文字列取得手段が取得した文字列の位置及び内容から前記文字列の属性情報及び対応関係を推定する推定手段と、
を備え、
前記項目組抽出手段は、前記推定手段による推定結果に基づいて前記対象文書画像から前記複数の項目組を抽出する、類似文書検索装置。
【請求項7】
請求項6に記載の類似文書検索装置において、
前記推定手段は、前記文字列に含まれるキーワードの有無及び/又は前記文字列の位置に関する規則に基づいて、又は、項目名と項目値との組み合わせについての学習をした学習モデルに基づいて、前記文字列の前記属性情報及び対応関係を推定する、類似文書検索装置。
【請求項8】
請求項1に記載の類似文書検索装置において、
前記保存文書から前記複数の項目組を抽出する保存文書項目組抽出手段と、
前記保存文書項目組抽出手段が抽出した前記複数の項目組を、前記保存文書に対応付けて前記項目組記憶部に登録する項目組登録手段と、
を備える、類似文書検索装置。
【請求項9】
請求項1に記載の類似文書検索装置において、
前記項目組は、1つの前記項目名に対して複数の前記項目値の組み合わせを含む、類似文書検索装置。
【請求項10】
保存文書に有する、複数の項目名と前記複数の項目名の各々に対応する項目値との組み合わせである複数の項目組を、前記保存文書に対応付けて記憶した項目組記憶部を備えるコンピュータを、
対象文書画像から前記複数の項目組を抽出する項目組抽出手段と、
前記項目組抽出手段が抽出した前記複数の項目組と、前記項目組記憶部に記憶された複数の前記保存文書の各々に対応した前記複数の項目組とを用いて文書類似度を算出する類似度算出手段と、
して機能させるためのプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、類似文書検索装置及びプログラムに関する。
続きを表示(約 3,400 文字)
【背景技術】
【0002】
類似文書検索は、対象文書に類似した内容やテーマを持つ他の文書を検索する技術であり、情報検索や文書分類等の様々な分野で活用されている。インターネットの普及により、膨大な量の文書がオンライン上に存在しており、特定のテーマや内容に関連する文書を効率よく検索することが求められている。
このような状況下において、オンライン上の文書には、様々なデータ形式のものが存在するため、テキストとして読み取れるように文書をデータ化しておく必要がある。また、対象文書についても、例えば、紙による受け渡しや、PDFデータによる受け渡しがされたものである場合には、テキストとして読み取れるようにデータ化する必要がある。
文書画像をテキスト化する方法としては、例えば、OCR(Optical Character Recognition/Reader)を用いることができる。
そして、対象文書に類似する文書を検索する方法としては、文書を入力することにより、当該文書中の重要単語である対象語の重要度に基づいて、当該文書に類似する文書を検索する装置が開示されている(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
特許第6190904号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載のものは、対象語が、例えば、異なる文脈で使用されている場合には、検索結果として出力される文書が、本来得たいものとは異なるものになる可能性があった。
【0005】
そこで、本発明は、文脈に即した文書の検索を可能とした類似文書検索装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、以下のような解決手段により、前記課題を解決する。
第1の発明は、保存文書に有する、複数の項目名と前記複数の項目名の各々に対応する項目値との組み合わせである複数の項目組を、前記保存文書に対応付けて記憶した項目組記憶部と、対象文書画像から前記複数の項目組を抽出する項目組抽出手段と、前記項目組抽出手段が抽出した前記複数の項目組と、前記項目組記憶部に記憶された複数の前記保存文書の各々に対応した前記複数の項目組とを用いて文書類似度を算出する類似度算出手段と、を備える、類似文書検索装置である。
第2の発明は、第1の発明の類似文書検索装置において、前記類似度算出手段は、前記項目組抽出手段が抽出した前記複数の項目組のうちの前記項目名と、前記項目組記憶部に記憶された複数の前記保存文書の各々に対応した前記複数の項目組のうちの前記項目名との一致度合いを示す前記文書類似度を算出する、類似文書検索装置である。
第3の発明は、第1の発明又は第2の発明の類似文書検索装置において、前記類似度算出手段は、前記項目組抽出手段が抽出した前記複数の項目組と、前記項目組記憶部に記憶された複数の前記保存文書の各々に対応した前記複数の項目組との組み合わせの一致度合いを示す前記文書類似度を算出する、類似文書検索装置である。
第4の発明は、第1の発明から第3の発明までのいずれかの類似文書検索装置において、前記類似度算出手段により算出した前記文書類似度が最も高い前記複数の項目組に対応した前記保存文書を出力する類似文書出力手段を備える、類似文書検索装置である。
第5の発明は、第4の発明の類似文書検索装置において、前記類似文書出力手段は、前記類似度算出手段により算出した前記文書類似度が閾値以上の前記複数の項目組に対応した前記保存文書を出力する、類似文書検索装置である。
第6の発明は、第1の発明から第5の発明までのいずれかの類似文書検索装置において、前記対象文書画像の入力を受け付ける文書受付手段と、前記文書受付手段が受け付けた前記対象文書画像から文字列を取得する文字列取得手段と、前記文字列取得手段が取得した文字列の位置及び内容から前記文字列の属性情報及び対応関係を推定する推定手段と、を備え、前記項目組抽出手段は、前記推定手段による推定結果に基づいて前記対象文書画像から前記複数の項目組を抽出する、類似文書検索装置である。
第7の発明は、第6の発明の類似文書検索装置において、前記推定手段は、前記文字列に含まれるキーワードの有無及び/又は前記文字列の位置に関する規則に基づいて、又は、項目名と項目値との組み合わせについての学習をした学習モデルに基づいて、前記文字列の前記属性情報及び対応関係を推定する、類似文書検索装置である。
第8の発明は、第1の発明から第7の発明までのいずれかの類似文書検索装置において、前記保存文書から前記複数の項目組を抽出する保存文書項目組抽出手段と、前記保存文書項目組抽出手段が抽出した前記複数の項目組を、前記保存文書に対応付けて前記項目組記憶部に登録する項目組登録手段と、を備える、類似文書検索装置である。
第9の発明は、第1の発明から第8の発明までのいずれかの類似文書検索装置において、前記項目組は、1つの前記項目名に対して複数の前記項目値の組み合わせを含む、類似文書検索装置である。
第10の発明は、第1の発明から第9の発明までのいずれかの類似文書検索装置としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0007】
本発明によれば、文脈に即した文書の検索を可能とした類似文書検索装置及びプログラムを提供することができる。
【図面の簡単な説明】
【0008】
本実施形態に係る類似文書検索システムの全体構成図及び類似文書検索サーバの機能ブロック図である。
本実施形態に係る類似文書検索サーバの項目組記憶部の例を示す図である。
本実施形態に係る類似文書検索サーバの事前処理を示すフローチャートである。
本実施形態に係る類似文書検索サーバの類似文書検索処理を示すフローチャートである。
本実施形態に係る類似文書検索サーバにおける項目組の抽出処理を説明するための図である。
本実施形態に係る類似文書検索サーバの類似度処理を示すフローチャートである。
本実施形態に係る類似文書検索サーバにおける類似度処理を説明するための図である。
本実施形態に係る類似文書検索サーバにおける類似度処理を説明するための図である。
本実施形態の変形例に係る類似文書検索サーバの類似度処理を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲は、これに限られるものではない。
(実施形態)
<類似文書検索システム100の全体構成>
図1は、本実施形態に係る類似文書検索システム100の全体構成図及び類似文書検索サーバ1の機能ブロック図である。
図2は、本実施形態に係る類似文書検索サーバ1の項目組記憶部23の例を示す図である。
【0010】
図1に示すように、類似文書検索システム100は、類似文書検索サーバ1(類似文書検索装置)と、文書サーバ4と、ユーザ端末5と、OCR装置6とを備える。類似文書検索サーバ1と、文書サーバ4と、ユーザ端末5と、OCR装置6とは、通信ネットワークNを介して接続されている。
類似文書検索システム100は、ユーザ端末5から入力がされた文書画像データ(対象文書画像)を、類似文書検索サーバ1が受け付けて、文書画像データをテキスト化し、テキストから項目名と項目値とからなる項目組を抽出する。そして、類似文書検索システム100では、類似文書検索サーバ1が、抽出した文書画像データの項目組と、文書サーバ4に保存されている保存文書データ(保存文書)の項目組との一致度合いを示す文書類似度を算出し、文書類似度により文書画像データに類似する保存文書データを特定する。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
大日本印刷株式会社
額縁
26日前
大日本印刷株式会社
移動体
17日前
大日本印刷株式会社
移動体
17日前
大日本印刷株式会社
写真撮影装置
18日前
大日本印刷株式会社
発電モジュール
7日前
大日本印刷株式会社
パネルの固定方法
4日前
大日本印刷株式会社
積層体及び包装容器
5日前
大日本印刷株式会社
積層体および包装容器
7日前
大日本印刷株式会社
積層体および包装容器
7日前
大日本印刷株式会社
積層体および包装容器
7日前
大日本印刷株式会社
積層体および包装容器
7日前
大日本印刷株式会社
包装装置および包装方法
19日前
大日本印刷株式会社
シール型熱転写受像シート
25日前
大日本印刷株式会社
シール型熱転写受像シート
25日前
大日本印刷株式会社
シール型熱転写受像シート
25日前
大日本印刷株式会社
情報処理装置及びプログラム
7日前
大日本印刷株式会社
リードフレーム及びその製造方法
19日前
大日本印刷株式会社
熱転写シートおよび中間転写媒体
25日前
大日本印刷株式会社
ポリエステルフィルム及び積層体
17日前
大日本印刷株式会社
リードフレーム及びその製造方法
19日前
大日本印刷株式会社
クランプ装置及びウェブ搬送装置
7日前
大日本印刷株式会社
ウェブ搬送装置及びウェブ搬送方法
3日前
大日本印刷株式会社
作業装置、作業システム、作業方法
3日前
大日本印刷株式会社
光学部材、ヘッドマウントディスプレイ
26日前
大日本印刷株式会社
サーバ装置、動画配信方法及びプログラム
7日前
大日本印刷株式会社
バリア性フィルム、積層体および包装容器
7日前
大日本印刷株式会社
バリア性フィルム、積層体および包装容器
7日前
大日本印刷株式会社
バリア性フィルム、積層体および包装容器
7日前
大日本印刷株式会社
サーバ装置、注目度算出方法及びプログラム
17日前
大日本印刷株式会社
転写シート、成形品の製造方法および成形品
3日前
大日本印刷株式会社
サーバ装置、仮想空間制御方法及びプログラム
17日前
大日本印刷株式会社
ボビン、熱転写シートリボン及び熱転写印画装置
7日前
大日本印刷株式会社
光学素子、前記光学素子を含む装置、及び光学素子の製造方法
4日前
大日本印刷株式会社
ゴルフボールスタンド、ゴルフボールパッケージおよびブランクシート
17日前
大日本印刷株式会社
反射装置、反射装置の製造方法、移相器、及び、フェーズドアレイアンテナ
26日前
大日本印刷株式会社
コイル部品、コイル中間材、送電装置、受電装置、及び、電力伝送システム
19日前
続きを見る
他の特許を見る