特許ウォッチ

公開番号2025128706
公報種別公開特許公報(A)
公開日2025-09-03
出願番号2024025521
出願日2024-02-22
発明の名称作業認識装置、作業認識方法およびプログラム
出願人オムロン株式会社
代理人弁理士法人深見特許事務所
主分類G06T 7/00 20170101AFI20250827BHJP(計算;計数)
要約【課題】カメラの設置場所の自由度が高く、認識精度の高い作業認識装置を提供する。
【解決手段】作業認識装置は、教師データを用いた機械学習を行うことにより学習済モデルを生成する学習部と、学習済モデルを用いて作業種別を認識する認識部とを備える。学習部は、学習用動画の第1単位区間に含まれるフレームに基づいて第1フレーム間差分画像を生成し、第1フレーム間差分画像と、第1単位区間に対して付与された作業種別を示すラベルとを示すデータを教師データとして用いる。認識部は、認識対象動画の第2単位区間に含まれるフレームに基づいて第2フレーム間差分画像を生成し、第2フレーム間差分画像を入力したときの学習済モデルの出力に基づいて、第2単位区間に写る作業者の作業種別を認識する。
【選択図】図1
特許請求の範囲【請求項１】
作業者の作業種別を認識する作業認識装置であって、
教師データを用いた機械学習を行うことにより学習済モデルを生成する学習部と、
前記学習済モデルを用いて前記作業種別を認識する認識部とを備え、
前記学習部は、
前記作業者の作業現場を撮影することにより得られる学習用動画の第１単位区間に含まれるフレームに基づいて、第１フレーム間差分画像を生成し、
前記第１フレーム間差分画像と、前記第１単位区間に含まれるフレームに対して付与された前記作業種別を示すラベルとを示すデータを前記教師データとして用い、
前記認識部は、
前記作業現場を撮影することにより得られる認識対象動画の第２単位区間に含まれるフレームに基づいて、第２フレーム間差分画像を生成し、
前記第２フレーム間差分画像を入力したときの前記学習済モデルの出力に基づいて、前記第２単位区間に写る前記作業者の前記作業種別を認識する、作業認識装置。
続きを表示（約 2,100 文字）【請求項２】
前記認識対象動画の各フレームから人を検知する人検知部をさらに備え、
前記認識部は、人が検知されたフレームについてのみ前記作業種別を認識する、請求項１に記載の作業認識装置。
【請求項３】
前記第１単位区間および前記第２単位区間の各々は、連続する２つのフレームを含み、
前記第１フレーム間差分画像は、前記第１単位区間に含まれる前記２つのフレームの差分画像であり、
前記第２フレーム間差分画像は、前記第２単位区間に含まれる前記２つのフレームの差分画像である、請求項１または２に記載の作業認識装置。
【請求項４】
前記第１単位区間および前記第２単位区間の各々は、連続する２つのフレームを含み、
前記第１フレーム間差分画像は、前記第１単位区間に含まれる前記２つのフレームのうちの一方と、前記第１単位区間に含まれる前記２つのフレームの間に挿入される補間フレームとの差分画像であり、
前記第２フレーム間差分画像は、前記第２単位区間に含まれる前記２つのフレームのうちの一方と、前記第２単位区間に含まれる前記２つのフレームの間に挿入される補間フレームとの差分画像である、請求項１または２に記載の作業認識装置。
【請求項５】
前記第１単位区間および前記第２単位区間の各々は、連続する３以上のフレームを含み、
前記第１フレーム間差分画像は、前記第１単位区間に含まれる前記３以上のフレームにおける、最初のフレームと最後のフレームとの差分画像であり、
前記第２フレーム間差分画像は、前記第２単位区間に含まれる前記３以上のフレームにおける、最初のフレームと最後のフレームとの差分画像である、請求項１または２に記載の作業認識装置。
【請求項６】
前記第１単位区間および前記第２単位区間の各々は、連続する４以上のフレームを含み、
前記第１フレーム間差分画像は、前記第１単位区間に含まれる前記４以上のフレームの前半のフレーム群を加重平均することにより得られるフレームと、前記第１単位区間に含まれる前記４以上のフレームの後半のフレーム群を加重平均することにより得られるフレームとの差分画像であり、
前記第２フレーム間差分画像は、前記第２単位区間に含まれる前記４以上のフレームの前半のフレーム群を加重平均することにより得られるフレームと、前記第２単位区間に含まれる前記４以上のフレームの後半のフレーム群を加重平均することにより得られるフレームとの差分画像である、請求項１または２に記載の作業認識装置。
【請求項７】
前記学習部は、Ｆｅｗ－ｓｈｏｔ学習を用いて前記学習済モデルを生成する、請求項１または２に記載の作業認識装置。
【請求項８】
作業者の作業種別を認識する作業認識方法であって、
１以上のプロセッサが教師データを用いた機械学習を行うことにより学習済モデルを生成することと、
前記１以上のプロセッサが前記学習済モデルを用いて前記作業種別を認識することとを備え、
前記学習済モデルを生成することは、
前記作業者の作業現場を撮影することにより得られる学習用動画の第１単位区間に含まれるフレームに基づいて、第１フレーム間差分画像を生成することと、
前記第１フレーム間差分画像と、前記第１単位区間に含まれるフレームに対して付与された前記作業種別を示すラベルとを示すデータを前記教師データとして用いることとを含み、
前記認識することは、
前記作業現場を撮影することにより得られる認識対象動画の第２単位区間に含まれるフレームに基づいて、第２フレーム間差分画像を生成することと、
前記第２フレーム間差分画像を入力したときの前記学習済モデルの出力に基づいて、前記認識対象動画の前記第２単位区間に写る前記作業者の前記作業種別を認識することとを含む、作業認識方法。
【請求項９】
作業者の作業種別を認識する作業認識方法をコンピュータに実行させるプログラムであって、前記作業認識方法は、
教師データを用いた機械学習を行うことにより学習済モデルを生成することと、
前記学習済モデルを用いて前記作業種別を認識することとを備え、
前記学習済モデルを生成することは、
前記作業者の作業現場を撮影することにより得られる学習用動画の第１単位区間に含まれるフレームに基づいて、第１フレーム間差分画像を生成することと、
前記第１フレーム間差分画像と、前記第１単位区間に含まれるフレームに対して付与された前記作業種別を示すラベルとを示すデータを前記教師データとして用いることとを含み、
前記認識することは、
前記作業現場を撮影することにより得られる認識対象動画の第２単位区間に含まれるフレームに基づいて、第２フレーム間差分画像を生成することと、
前記第２フレーム間差分画像を入力したときの前記学習済モデルの出力に基づいて、前記認識対象動画の前記第２単位区間に写る前記作業者の前記作業種別を認識することとを含む、プログラム。

発明の詳細な説明【技術分野】
【０００１】
本開示は、作業認識装置、作業認識方法およびプログラムに関する。
続きを表示（約 1,800 文字）【背景技術】
【０００２】
従来、作業者を撮影することにより得られる動画から作業者の作業種別を認識する技術が開発されている。
【０００３】
中国特許出願公開第１０９４０９２０９号明細書（特許文献１）は、人体動画情報を取得するステップと、人体動画情報を前処理して、関節点の位置を示す骨格ノード情報を取得するステップと、骨格ノード情報を行動認識モデルに入力し、行動を識別するステップとを含む方法を開示する。
【０００４】
特開２０２１－６７９８１号公報（特許文献２）は、要素作業情報によって特定された要素作業に関連する作業関連物を撮像した領域を含む画像情報を学習対象データとして用いることで、作業関連物と要素作業との関連性を考慮したモデルを生成する装置を開示する。装置は、モデルに基づいて、対象画像がどの要素作業を行う作業者に係る画像であるかを特定する。
【先行技術文献】
【特許文献】
【０００５】
中国特許出願公開第１０９４０９２０９号明細書
特開２０２１－６７９８１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
特許文献１に記載の方法は、人体動画情報を前処理して取得された骨格ノード情報に基づいて、人の行動を識別する。そのため、骨格を認識できる程度に人体が写る人体動画情報を生成する必要がある。したがって、人体動画情報を生成するカメラの設置場所が制限される。
【０００７】
一方、特許文献２に記載の装置は、骨格ノード情報を抽出することなく、対象画像をモデルに直接入力する。そのため、対象画像を生成するカメラの設置場所が制限されない。しかしながら、対象画像には、作業者だけでなく、作業者の背景も写る。そのため、モデルは、対象画像に写る背景の特徴に基づいて、作業者が写っていない対象画像を、ある特定の要素作業を行う作業者に係る画像として誤って認識し得る。あるいは、モデルは、作業者および背景の特徴に基づいて、作業待ちの状態の作業者が写る対象画像を、ある特定の要素作業を行う作業者に係る画像として誤って認識し得る。
【０００８】
本開示は、上記の問題に鑑みてなされたものであり、その目的は、画像を取得するカメラの設置場所の自由度が高く、かつ、認識精度の高い作業認識装置、作業認識方法およびプログラムを提供することである。
【課題を解決するための手段】
【０００９】
本開示の一例によれば、作業者の作業種別を認識する作業認識装置は、教師データを用いた機械学習を行うことにより学習済モデルを生成する学習部と、学習済モデルを用いて作業種別を認識する認識部とを備える。学習部は、作業者の作業現場を撮影することにより得られる学習用動画の第１単位区間に含まれるフレームに基づいて、第１フレーム間差分画像を生成する。学習部は、第１のフレーム間差分画像と、第１単位区間に含まれるフレームに対して付与された作業種別を示すラベルとを示すデータを教師データとして用いる。認識部は、作業現場を撮影することにより得られる認識対象動画の第２単位区間に含まれるフレームに基づいて、第２フレーム間差分画像を生成する。認識部は、第２フレーム間差分画像を入力したときの学習済モデルの出力に基づいて、認識対象動画の第２単位区間に写る作業者の作業種別を認識する。
【００１０】
この開示によれば、学習済モデルは、単位区間におけるフレーム間差分画像を入力として受ける。一般に、作業者が作業を行っている単位区間におけるフレーム間差分画像は、作業者が不在である単位区間または作業者が作業を待機している単位区間におけるフレーム間差分画像と大きく異なる。そのため、作業認識装置は、認識対象動画の第２単位区間における第２フレーム間差分画像を学習済モデルに入力することにより、第２単位区間に写る作業者の作業種別を精度良く認識できる。さらに、学習済モデルは、特許文献１に開示の技術のように画像から抽出された骨格ノード情報の入力を必要としない。そのため、特許文献１に開示の技術のようにカメラの設置場所が制限されない。すなわち、学習用画像および認識対象画像を取得するためのカメラの設置場所の自由度が高い。
（【００１１】以降は省略されています）

関連特許