TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025123835
公報種別公開特許公報(A)
公開日2025-08-25
出願番号2024019551
出願日2024-02-13
発明の名称情報処理装置、情報処理方法及びプログラム
出願人NTT株式会社,国立大学法人 筑波大学
代理人弁理士法人志賀国際特許事務所
主分類G06F 16/906 20190101AFI20250818BHJP(計算;計数)
要約【課題】クラスタリングに要する時間を軽減すること。
【解決手段】本発明の一態様は、追加対象のデータポイントである追加データポイントが追加される前のデータポイントの集合、に対する階層的なクラスタリングによって生じたI個の階層のうち、クラスタの数がi番目に多いd次元の距離空間である第i階層における追加データポイントの最近傍のデータポイントを推定する第i最近傍データポイント推定処理を、クラスタリングによって生じた階層に対して実行する制御部、を備え、第i最近傍データポイント推定処理では、(d-1)次元の部分空間であって、属する第j階層のクラスタが同一である第i階層のデータポイントの集合それぞれに対して定められる部分空間であって、対応する集合を囲む部分空間それぞれを示す境界空間情報、に基づき第i階層における最近傍のデータポイントが推定される、情報処理装置である。
【選択図】図1
特許請求の範囲【請求項1】
追加対象のデータポイントである追加データポイントが追加される前のデータポイントの集合である追加前データポイント集合、に対する階層的なクラスタリングによって生じたI個(Iは1以上の整数)の階層のうち、iが2以上(iは1以上I以下の整数)の場合には第(i-1)階層におけるクラスタの代表点がデータポイントとして分布しiが1の場合には前記追加前データポイント集合の各データポイントが分布するd次元の距離空間(dは2以上の整数)であってクラスタの数がi番目に多いd次元の距離空間である第i階層、における前記追加データポイントの最近傍のデータポイントである最近傍データポイントを推定する第i最近傍データポイント推定処理を、前記クラスタリングによって生じたI個の階層の一部又は全部に対して実行する制御部、
を備え、
前記第i最近傍データポイント推定処理では、距離空間における(d-1)次元の部分空間であって、属する第j階層(jはi以上I以下の整数)のクラスタが同一である第i階層のデータポイントの集合それぞれに対して定められる部分空間であって、対応する前記集合を前記距離空間において囲む部分空間であって、空間の形状に関する所定の条件である形状条件を満たす部分空間それぞれを、少なくとも第i階層から第(I-1)階層までの各階層について示す境界空間情報、に基づき前記第i階層における前記最近傍データポイントが推定される、
情報処理装置。
続きを表示(約 3,500 文字)【請求項2】
前記第i最近傍データポイント推定処理では、
前記境界空間情報が示す第(I-1)階層における部分空間のうち最も前記追加データポイントに近い部分空間を推定する事前第1処理と、
前記境界空間情報に基づき、前記境界空間情報が示す第k階層(kはi以上I未満の整数)における部分空間のうち第k階層における判定対象とされた部分空間の中では最も前記追加データポイントに近いと推定された部分空間、に囲まれる第i階層のデータポイント、を囲む前記境界空間情報が示す第(k-1)階層の部分空間、を第(k-1)階層における判定対象として推定する第1種判定対象推定処理、を第(I-2)階層から第(i-1)階層まで順に実行する第1処理と、
第(i-1)層における第1種判定対象推定処理の実行によって第i階層における判定対象として推定された前記境界空間情報が示す第i階層における部分空間のうち、前記追加データポイントに最も近い部分空間である最近傍候補空間を判定する第2処理と、
前記最近傍候補空間に含まれる第i階層のデータポイントと前記追加データポイントとの距離が最も短いデータポイント、と前記追加データポイントとの間の距離である最近傍候補距離を得る最近傍候補距離取得処理と、
前記最近傍候補距離に基づいて、前記第i階層における最近傍データポイントを推定する第3処理と、
が実行され、
第(I-1)階層における前記判定対象は、前記事前第1処理の推定結果である、
請求項1に記載の情報処理装置。
【請求項3】
前記第3処理では、
前記第1種判定対象推定処理によって第(p-1)階層(pは(i+1)以上I以下の整数)における判定対象とされた境界空間のうちの第(p-1)階層対象空間以外の境界空間である第p見落とし空間それぞれと前記追加データポイントとの間の距離を取得し、予め定められた距離であって更新可能な距離である基準距離よりも短い距離を与える第p見落とし空間である第p検討候補空間、があるか否かを取得した距離に基づいて判定する処理である第p見落とし判定処理、を実行し、
第w見落とし判定処理(wは(i+1)以上I未満の整数)によって第w検討候補空間が無い、と判定された場合には、基準距離を更新することなく、第(w+1)見落とし判定処理を実行し、
前記第w見落とし判定処理によって第w検討候補空間があると判定された場合には、前記第w検討候補空間によって囲まれる第i階層のデータポイントを囲む第(w-1)階層から第i階層までの各境界空間、と前記追加データポイントと、の距離のうちの最小の距離へと基準距離を更新し、
第I見落とし判定処理によって第I検討候補空間が無い、と判定された場合に終了する、
第4処理と、
前記境界空間情報が示す境界空間のうちの前記追加データポイントからの距離が前記第4処理の結果得られた基準距離であるという境界空間条件を満たす境界空間に囲まれる第i階層のデータポイントのうち、前記追加データポイントとの距離が最小のデータポイントを第i階層における最近傍データポイントと推定する処理である第5処理と、
が実行され、
第i見落とし判定処理における基準距離は、最近傍候補距離である、
請求項2に記載の情報処理装置。
【請求項4】
前記制御部は更に、前記境界空間情報に基づき、前記追加データポイントを最近傍とするデータポイントである第i階層における被最近傍データポイント、を推定する、
請求項1に記載の情報処理装置。
【請求項5】
追加対象のデータポイントである追加データポイントが追加される前のデータポイントの集合である追加前データポイント集合、に対する階層的なクラスタリングによって生じたI個(Iは1以上の整数)の階層のうち、iが2以上(iは1以上I以下の整数)の場合には第(i-1)階層におけるクラスタの代表点がデータポイントとして分布しiが1の場合には前記追加前データポイント集合の各データポイントが分布するd次元の距離空間(dは2以上の整数)であってクラスタの数がi番目に多いd次元の距離空間である第i階層、における前記追加データポイントを最近傍とするデータポイントである被最近傍データポイントを推定する第i被最近傍データポイント推定処理を、前記クラスタリングによって生じたI個の階層の一部又は全部に対して実行する制御部、
を備え、
前記第i被最近傍データポイント推定処理では、前記距離空間における(d-1)次元の部分空間であって、属する第j階層(jはi以上I以下の整数)のクラスタが同一である第i階層のデータポイントの集合それぞれに対して定められる部分空間であって、対応する前記集合を前記距離空間において囲む部分空間であって、空間の形状に関する所定の条件である形状条件を満たす部分空間それぞれを、少なくとも第i階層から第(I-1)階層までの各階層について示す境界空間情報、に基づき前記第i階層における前記被最近傍データポイントが推定される、
情報処理装置。
【請求項6】
追加対象のデータポイントである追加データポイントが追加される前のデータポイントの集合である追加前データポイント集合、に対する階層的なクラスタリングによって生じたI個(Iは1以上の整数)の階層のうち、iが2以上(iは1以上I以下の整数)の場合には第(i-1)階層におけるクラスタの代表点がデータポイントとして分布しiが1の場合には前記追加前データポイント集合の各データポイントが分布するd次元の距離空間(dは2以上の整数)であってクラスタの数がi番目に多いd次元の距離空間である第i階層、における前記追加データポイントの最近傍のデータポイントである最近傍データポイントを推定する第i最近傍データポイント推定処理を、前記クラスタリングによって生じたI個の階層の一部又は全部に対して実行する制御ステップ、
を有し、
前記第i最近傍データポイント推定処理では、距離空間における(d-1)次元の部分空間であって、属する第j階層(jはi以上I以下の整数)のクラスタが同一である第i階層のデータポイントの集合それぞれに対して定められる部分空間であって、対応する前記集合を前記距離空間において囲む部分空間であって、空間の形状に関する所定の条件である形状条件を満たす部分空間それぞれを、少なくとも第i階層から第(I-1)階層までの各階層について示す境界空間情報、に基づき前記第i階層における前記最近傍データポイントが推定される、
情報処理方法。
【請求項7】
追加対象のデータポイントである追加データポイントが追加される前のデータポイントの集合である追加前データポイント集合、に対する階層的なクラスタリングによって生じたI個(Iは1以上の整数)の階層のうち、iが2以上(iは1以上I以下の整数)の場合には第(i-1)階層におけるクラスタの代表点がデータポイントとして分布しiが1の場合には前記追加前データポイント集合の各データポイントが分布するd次元の距離空間(dは2以上の整数)であってクラスタの数がi番目に多いd次元の距離空間である第i階層、における前記追加データポイントを最近傍とするデータポイントである被最近傍データポイントを推定する第i被最近傍データポイント推定処理を、前記クラスタリングによって生じたI個の階層の一部又は全部に対して実行する制御ステップ、
を備え、
前記第i被最近傍データポイント推定処理では、前記距離空間における(d-1)次元の部分空間であって、属する第j階層(jはi以上I以下の整数)のクラスタが同一である第i階層のデータポイントの集合それぞれに対して定められる部分空間であって、対応する前記集合を前記距離空間において囲む部分空間であって、空間の形状に関する所定の条件である形状条件を満たす部分空間それぞれを、少なくとも第i階層から第(I-1)階層までの各階層について示す境界空間情報、に基づき前記第i階層における前記被最近傍データポイントが推定される、
情報処理方法。
【請求項8】
請求項1から5のいずれか一項に記載の情報処理装置としてコンピュータを機能させるためのプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
続きを表示(約 1,900 文字)【背景技術】
【0002】
クラスタリングはデータ集合に内在する性質の類似した部分集合を検出する手法であり、データ分析において重要な要素技術となっている。
【0003】
<FINCH>
近年、FINCHという階層型のクラスタリング手法が提案された(非特許文献1)。FINCHでは、与えられたデータポイントごとに最近傍探索が行われ、最も近くにあるデータポイントとそのデータポイントを最近傍とするデータポイントとの間にエッジが張られグラフが構築される。そして各連結成分を一つのクラスタとすることが行われる。得られたクラスタの数が2以上である場合は各クラスタのデータの平均が新しいデータポイントとされ、ひとつ上の階層における入力として新たにクラスタが計算される。FINCHではこれらの処理をクラスタの数が1になるまで行われる。その結果、粒度の異なるいくつかの階層からなるクラスタ階層が得られる。
【0004】
FINCHはk-means法などの他のクラスタリング手法と比較して少なくとも以下の4つの利点を有する。1つ目の利点は、高い精度で真のクラスタを自動的に決定できる点である。2つ目の利点は、ハイパーパラメータを必要としない点である。3つの目の利点は、異なるドメインのデータでも一般的に利用できる点である。4つ目の利点は、膨大なデータセットに拡張できる点である。
【0005】
しかしながらFINCHは、蓄積されたデータ向けのクラスタリング手法であり、データが次々と流れてくるデータストリーミングに対してクラスタリングを行おうとすると膨大な計算時間を要するという問題がある。これはFINCHがデータ全体に対して最近傍探索を行うことでクラスタリングを行う手法であるため、データが追加されたときにはデータ全体に対して一から最近傍探索を行う必要があるからである。
【0006】
<FINCHのより詳細>
FINCHのより詳細を説明する。FINCHはデータストリームではなく静的に格納されたデータポイントに対する階層型のクラスタリング手法である(非特許文献1)。FINCHでは、図12に示すように、データセットから近傍グラフを生成し近傍グラフにおける各連結成分を1つのクラスタとする、ことが行われる。生成されたクラスタの数が1ではないとき、すなわち近傍グラフが2個以上の連結成分を持つとき、図13に示す処理が実行される。すなわち、上の階層におけるデータポイントとしてクラスタの構成要素となる各データポイントの平均(すなわち重心)を用いて階層的なクラスタ構造を再帰的に得る、という計算が、クラスタの数が1になるまで実行される。
【0007】
一つの階層においてデータセットからクラスタを計算することを1つのステップとし、FINCHはこのステップを繰り返すことで階層的なクラスタ構造を得る。なお図12において、同じデータポイントを最近傍に持つデータポイント間のエッジは表示されていない。この理由は、同じデータポイントを最近傍に持つデータポイントそれぞれは最近傍データポイントを介して互いに連結成分になるため、共有の最近傍間に張られるエッジの有無は連結成分に関係しないためである。
【0008】
FINCHでは、データセットの各データポイント間の距離を計算し、最近傍のデータポイントである最近傍データポイントと被最近傍のデータポイントである被最近傍データポイントとを求め、以下の式(1)で与えられる隣接行列から近傍グラフを構築する、ということが行われる。
【0009】
TIFF
2025123835000002.tif
17
170
【0010】
ここでκ
u

は、u番目のデータポイントに対して最近傍であるデータポイント(すなわちu番目のデータポイントにとっての最近傍データポイント)の識別子である。したがってA(u,v)は、u番目のデータポイントにとってv番目のデータポイントが最近傍のデータポイントであるときと、u番目のデータポイントがv番目のデータポイントにとっての被最近傍のデータポイントであるときと、u番目のデータポイントの最近傍のデータポイントがv番目のデータポイントの最近傍のデータポイントであるときと、のいずれかの場合に、値が1である。一方、A(u,v)はそれ以外の場合には、値が0である。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

NTT株式会社
量子計算装置、及び制御装置
16日前
NTT株式会社
音声抽出装置及び音声抽出方法
1日前
NTT株式会社
無線通信方法及び無線通信システム
10日前
NTT株式会社
推論装置、推論方法、及びプログラム
14日前
NTT株式会社
生成システム、生成装置、および生成方法
4日前
NTT株式会社
情報処理装置、情報処理方法及びプログラム
4日前
NTT株式会社
情報処理装置、情報処理方法及びプログラム
11日前
NTT株式会社
修辞構造解析装置、修辞構造解析方法及びプログラム
9日前
NTT株式会社
画像処理装置、画像処理方法及び画像処理プログラム
14日前
NTT株式会社
情報処理装置、情報処理方法および情報処理プログラム
9日前
富士通株式会社
データ転送制御装置および情報処理装置
15日前
富士通株式会社
データ転送制御装置および情報処理装置
15日前
NTT株式会社
基地局及び端末
3日前
NTT株式会社
電気刺激装置、電気刺激システム、電気刺激方法及びプログラム
11日前
NTT株式会社
音響信号出力装置
3日前
NTT株式会社
送信局及び受信局
16日前
NTT株式会社
装置、方法及びプログラム
7日前
NTT株式会社
生成システム、学習システム、生成方法、学習方法、及びプログラム
7日前
個人
裁判のAI化
1か月前
個人
フラワーコートA
22日前
個人
工程設計支援装置
14日前
個人
介護情報提供システム
29日前
個人
携帯情報端末装置
15日前
個人
設計支援システム
1か月前
個人
設計支援システム
1か月前
個人
結婚相手紹介支援システム
11日前
株式会社カクシン
支援装置
1か月前
個人
アンケート支援システム
24日前
個人
食事受注会計処理システム
1日前
大阪瓦斯株式会社
住宅設備機器
8日前
サクサ株式会社
中継装置
25日前
個人
ジェスチャーパッドのガイド部材
28日前
個人
リテールレボリューションAIタグ
21日前
株式会社寺岡精工
システム
28日前
株式会社村田製作所
ラック
10日前
株式会社アジラ
移動方向推定装置
23日前
続きを見る