TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025122910
公報種別
公開特許公報(A)
公開日
2025-08-22
出願番号
2024018654
出願日
2024-02-09
発明の名称
外れ値検出方法及び装置
出願人
株式会社プロテリアル
代理人
弁理士法人平田国際特許事務所
主分類
G06N
20/00 20190101AFI20250815BHJP(計算;計数)
要約
【課題】外れ値を適切に検出することが可能な外れ値検出方法及び装置を提供する。
【解決手段】学習用データ31の各データが目的変数の値を複数含み、学習用データ31の各データについて目的変数の値の変動係数を求め、変動係数が予め設定した基準値よりも大きいデータを外れ値候補データ32とし、それ以外のデータを正常データ33とし、正常データ33の一部をテストデータとし、正常データ33の他部と外れ値候補データ32とを第1教師データとして、第1回帰モデルの作成及び第1評価指標の演算を行い、第1評価指標に基づいて外れ値判定用の評価指標閾値を設定する工程と、外れ値候補データ32に含まれる各データについて、各データを第1教師データから除外した第2教師データを用いて第2回帰モデルを作成して第2評価指標を演算し、第2評価指標と評価指標閾値とを比較することで外れ値であるかを判定する。
【選択図】図1
特許請求の範囲
【請求項1】
機械学習に用いる説明変数と目的変数のデータを含む学習用データに含まれる外れ値を検出する方法であって、
前記学習用データに含まれる各データは、前記目的変数の値を複数含んでおり、
前記学習用データに含まれるデータのそれぞれについて、前記目的変数の値の変動係数を求め、前記学習用データに含まれるデータのうち、求めた変動係数が設定した基準値よりも大きいデータを外れ値候補データとし、それ以外のデータを正常データとして分類するデータ分類工程と、
前記正常データの一部をテストデータとすると共に、前記正常データの他部と前記外れ値候補データとを第1教師データとし、当該第1教師データを用いて前記説明変数と前記目的変数の相関性を示す第1回帰モデルを作成し、当該第1回帰モデルに対して前記テストデータを用いて前記第1回帰モデルの予測精度を評価するための第1評価指標を演算し、当該第1評価指標に基づいて外れ値判定用の評価指標閾値を設定する閾値設定工程と、
前記外れ値候補データに含まれるデータのそれぞれについて、当該それぞれのデータを前記第1教師データから除外して第2教師データを作成し、当該第2教師データを用いて第2回帰モデルを作成すると共に、当該第2回帰モデルに対して前記テストデータを用いて前記第2回帰モデルの予測精度を評価するための第2評価指標を演算し、演算した前記第2評価指標と前記評価指標閾値とを比較することで、前記除外されたデータが外れ値であるかを判定する外れ値判定工程と、を備えた、
外れ値検出方法。
続きを表示(約 1,300 文字)
【請求項2】
前記閾値設定工程では、前記正常データを前記テストデータと前記第1教師データに用いるデータとに分割する分割パターンを複数形成し、各分割パターンで演算した前記第1評価指標の平均値を用いて、前記評価指標閾値の設定を行い、
前記外れ値判定工程では、前記各分割パターンの前記第1教師データを基に作成した前記第2教師データを用いて演算した前記第2評価指標の平均値を用いて、前記評価指標閾値との比較を行う、
請求項1に記載の外れ値検出方法。
【請求項3】
前記第1及び第2評価指標として、平均誤差(ME)、平均絶対誤差(MAE)、平均平方二乗誤差(RMSE)、平均誤差率(MPE)、平均絶対誤差率(MAPE)、及び平均平方二乗誤差率(RMSPE)のうち何れかを用い、
前記外れ値判定工程では、演算した前記第2評価指標が前記評価指標閾値よりも小さいとき、前記除外されたデータが外れ値であると判定する、
請求項1に記載の外れ値検出方法。
【請求項4】
前記第1及び第2評価指標として、決定係数を用い、
前記外れ値判定工程では、演算した前記第2評価指標が前記評価指標閾値よりも大きいとき、前記除外されたデータが外れ値であると判定する、
請求項1に記載の外れ値検出方法。
【請求項5】
前記閾値設定工程及び前記外れ値判定工程では、複数の前記目的変数の値の中央値を、前記第1及び第2回帰モデルの作成及び前記第1及び第2評価指標の演算に用いる、
請求項1に記載の外れ値検出方法。
【請求項6】
機械学習に用いる説明変数と目的変数のデータを含む学習用データに含まれる外れ値を検出する装置であって、
前記学習用データに含まれる各データは、前記目的変数の値を複数含んでおり、
前記学習用データに含まれるデータのそれぞれについて、前記目的変数の値の変動係数を求め、前記学習用データに含まれるデータのうち、求めた変動係数が設定した基準値よりも大きいデータを外れ値候補データとし、それ以外のデータを正常データとして分類するデータ分類処理部と、
前記正常データの一部をテストデータとすると共に、前記正常データの他部と前記外れ値候補データとを第1教師データとし、当該第1教師データを用いて前記説明変数と前記目的変数の相関性を示す第1回帰モデルを作成し、当該第1回帰モデルに対して前記テストデータを用いて前記第1回帰モデルの予測精度を評価するための第1評価指標を演算し、当該第1評価指標に基づいて外れ値判定用の評価指標閾値を設定する閾値設定処理部と、
前記外れ値候補データに含まれるデータのそれぞれについて、当該それぞれのデータを前記第1教師データから除外して第2教師データを作成し、当該第2教師データを用いて第2回帰モデルを作成すると共に、当該第2回帰モデルに対して前記テストデータを用いて前記第2回帰モデルの予測精度を評価するための第2評価指標を演算し、演算した前記第2評価指標と前記評価指標閾値とを比較することで、前記除外されたデータが外れ値であるかを判定する外れ値判定処理部と、を備えた、
外れ値検出装置。
発明の詳細な説明
【技術分野】
【0001】
本発明は、外れ値検出方法及び装置に関する。
続きを表示(約 2,100 文字)
【背景技術】
【0002】
機械学習を用いて様々な予測を行う方法が知られている。例えば、未知の配合の材料の物性を予測する場合、試験製造等により既に取得済みのデータを学習用データ(教師データ)として用いて機械学習を行い、材料の配合と物性との相関性を学習し、学習の結果得られた回帰モデルを用いて予測を行う。
【0003】
なお、この出願の発明に関連する先行技術文献情報としては、特許文献1がある。
【先行技術文献】
【特許文献】
【0004】
特開2021-33544号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、学習用データに、誤ったデータ、あるいは誤差が大きいデータである外れ値が含まれていると、当該学習用データを用いて得られた回帰モデルの予測精度が低下してしまう。そのため、機械学習に先立ち、学習用データから外れ値を除去することが望まれる。
【0006】
従来、例えば、目的変数の値が平均値±3σの範囲外となるデータを外れ値とする、あるいは四分位範囲の範囲外となるデータを外れ値とするなどの統計的手法が用いられてきた。しかしながら、ばらつきが大きくても外れ値でない場合もあることから、このような方法では、外れ値でないデータまで外れ値として検出しまうおそれがあった。
【0007】
そこで、本発明は、外れ値を適切に検出することが可能な外れ値検出方法及び装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明は、上記課題を解決することを目的として、機械学習に用いる説明変数と目的変数のデータを含む学習用データに含まれる外れ値を検出する方法であって、前記学習用データに含まれる各データは、前記目的変数の値を複数含んでおり、前記学習用データに含まれるデータのそれぞれについて、前記目的変数の値の変動係数を求め、前記学習用データに含まれるデータのうち、求めた変動係数が設定した基準値よりも大きいデータを外れ値候補データとし、それ以外のデータを正常データとして分類するデータ分類工程と、前記正常データの一部をテストデータとすると共に、前記正常データの他部と前記外れ値候補データとを第1教師データとし、当該第1教師データを用いて前記説明変数と前記目的変数の相関性を示す第1回帰モデルを作成し、当該第1回帰モデルに対して前記テストデータを用いて前記第1回帰モデルの予測精度を評価するための第1評価指標を演算し、当該第1評価指標に基づいて外れ値判定用の評価指標閾値を設定する閾値設定工程と、前記外れ値候補データに含まれるデータのそれぞれについて、当該それぞれのデータを前記第1教師データから除外して第2教師データを作成し、当該第2教師データを用いて第2回帰モデルを作成すると共に、当該第2回帰モデルに対して前記テストデータを用いて前記第2回帰モデルの予測精度を評価するための第2評価指標を演算し、演算した前記第2評価指標と前記評価指標閾値とを比較することで、前記除外されたデータが外れ値であるかを判定する外れ値判定工程と、を備えた、外れ値検出方法を提供する。
【0009】
また、本発明は、上記課題を解決することを目的として、機械学習に用いる説明変数と目的変数のデータを含む学習用データに含まれる外れ値を検出する装置であって、前記学習用データに含まれる各データは、前記目的変数の値を複数含んでおり、前記学習用データに含まれるデータのそれぞれについて、前記目的変数の値の変動係数を求め、前記学習用データに含まれるデータのうち、求めた変動係数が設定した基準値よりも大きいデータを外れ値候補データとし、それ以外のデータを正常データとして分類するデータ分類処理部と、前記正常データの一部をテストデータとすると共に、前記正常データの他部と前記外れ値候補データとを第1教師データとし、当該第1教師データを用いて前記説明変数と前記目的変数の相関性を示す第1回帰モデルを作成し、当該第1回帰モデルに対して前記テストデータを用いて前記第1回帰モデルの予測精度を評価するための第1評価指標を演算し、当該第1評価指標に基づいて外れ値判定用の評価指標閾値を設定する閾値設定処理部と、前記外れ値候補データに含まれるデータのそれぞれについて、当該それぞれのデータを前記第1教師データから除外して第2教師データを作成し、当該第2教師データを用いて第2回帰モデルを作成すると共に、当該第2回帰モデルに対して前記テストデータを用いて前記第2回帰モデルの予測精度を評価するための第2評価指標を演算し、演算した前記第2評価指標と前記評価指標閾値とを比較することで、前記除外されたデータが外れ値であるかを判定する外れ値判定処理部と、を備えた、外れ値検出装置を提供する。
【発明の効果】
【0010】
本発明によれば、外れ値を適切に検出することが可能な外れ値検出方法及び装置を提供できる。
【図面の簡単な説明】
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
他の特許を見る