TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025109182
公報種別
公開特許公報(A)
公開日
2025-07-24
出願番号
2024225945
出願日
2024-12-23
発明の名称
障害検証システムおよび障害検証方法
出願人
富士電機株式会社
代理人
インフォート弁理士法人
主分類
G06F
11/36 20250101AFI20250716BHJP(計算;計数)
要約
【課題】単体試験や従来型のシステム試験では確認が困難であったシステム障害の事前検証を可能にする。
【解決手段】収集部110は、クラウドサービスを提供するクラウドアプリと、デバイスにおいてクラウドサービスとの間でデータの授受を行うデバイスアプリとについての実行ログをログ情報として収集する。また、収集部110は、クラウドアプリを実行するクラウドリソースとデバイスアプリを実行するデバイスリソースとのそれぞれに関するメトリクスのログをメトリクス情報として収集する。付与部120は、クラウドサービスとデバイスとから構成される対象システムの構成要素のいずれかに障害発生の要因を付与して対象システムに障害を発生させる。保存部130は、ログ情報及びメトリクス情報を、当該要因を構成要素へ付与した時に紐づけて、障害検証情報として保存する。
【選択図】図2
特許請求の範囲
【請求項1】
クラウドコンピューティングにより提供されるクラウドサービスと、前記クラウドサービスとの間でデータの授受を行うデバイスとから構成される対象システムであって、前記クラウドサービスを提供するクラウドアプリと、前記クラウドアプリを実行するハードウェアであるクラウドリソースと、前記デバイスにおいて前記データの授受の機能を提供するデバイスアプリと、前記デバイスアプリを実行するハードウェアであるデバイスリソースとを構成要素として備える前記対象システムで発生する障害の検証を行う障害検証システムであって、
前記クラウドアプリと前記デバイスアプリとについての実行ログをログ情報として収集すると共に、前記クラウドリソースと前記デバイスリソースとのそれぞれに関するメトリクスのログをメトリクス情報として収集する収集部と、
障害発生の要因を前記対象システムの前記構成要素のいずれかに付与して前記対象システムに障害を発生させる付与部と、
前記ログ情報及び前記メトリクス情報を、前記要因を前記構成要素へ付与した時に紐づけて、障害検証情報として保存する保存部と、
を備えることを特徴とする障害検証システム。
続きを表示(約 2,900 文字)
【請求項2】
前記対象システムの構成要素における異常の発生を検知する検知部と、
前記対象システムにおける前記要因が付与された前記構成要素を除く他の構成要素での異常の発生が、前記要因の付与に応じて検知された場合に、前記他の構成要素を特定する情報を出力する特定情報出力部と、
を更に備えることを特徴とする請求項1に記載の障害検証システム。
【請求項3】
前記対象システムの監視を行う監視部と、
前記監視によって前記対象システムに障害の発生が検知されたときに前記収集部を制御して、検知された前記障害の発生時点における前記ログ情報及び前記メトリクス情報を収集させる収集制御部と、
前記障害検証情報を用いて、前記監視によって発生が検知された障害の原因を、前記障害の発生時点における前記ログ情報及び前記メトリクス情報から特定する原因特定部と、
を更に備えることを特徴とする請求項1に記載の障害検証システム。
【請求項4】
前記原因特定部は、
前記要因毎の前記障害検証情報における前記要因毎の前記ログ情報及び前記メトリクス情報と、前記障害の発生時点における前記ログ情報及び前記メトリクス情報とのマッチ率を算出する算出部と、
前記マッチ率が高い順に所定数個の前記要因の識別情報を、前記監視によって発生が検知された障害の原因を表す情報として出力する原因情報出力部と、
を備えることを特徴とする請求項3に記載の障害検証システム。
【請求項5】
前記付与部は、
前記クラウドリソースに配置される第1付与仲介部であって前記クラウドリソース若しくは前記クラウドアプリに前記要因を付与する前記第1付与仲介部と、
前記デバイスリソースに配置される第2付与仲介部であって前記デバイスリソース若しくは前記デバイスアプリに前記要因を付与する前記第2付与仲介部と、
前記要因と前記構成要素との設定を含む障害発生指令に応じて前記第1付与仲介部若しくは前記第2付与仲介部に指示を与えて、前記障害発生指令に設定されている前記要因を前記障害発生指令に設定されている前記構成要素に付与させる付与指示部と、
を備えることを特徴とする請求項1に記載の障害検証システム。
【請求項6】
前記収集部は、
前記クラウドリソースに配置される第1収集仲介部であって前記クラウドアプリについての前記実行ログの収集と前記クラウドリソースについての前記メトリクスのログの収集とを行う前記第1収集仲介部と、
前記デバイスリソースに配置される第2収集仲介部であって前記デバイスアプリについての前記実行ログの収集と前記デバイスリソースについての前記メトリクスのログの収集とを行う前記第2収集仲介部と、
前記第1収集仲介部が収集した前記実行ログ及び前記メトリクスのログを前記第1収集仲介部から受け取ると共に、前記第2収集仲介部が収集した前記実行ログ及び前記メトリクスのログを前記第2収集仲介部から受け取る受領部と、
を備えることを特徴とする請求項1又は5に記載の障害検証システム。
【請求項7】
前記対象システムは、前記クラウドサービスと、前記デバイスと、前記クラウドサービスとの間でデータの授受を行うサブデバイスとから構成されており、
前記デバイスリソースに配置される前記第2付与仲介部は、更に、前記サブデバイスで実行される前記デバイスアプリ、若しくは、前記サブデバイスで前記デバイスアプリを実行するハードウェアリソースにも、前記障害発生指令における前記構成要素の設定に応じて前記要因を付与する、
ことを特徴とする請求項5に記載の障害検証システム。
【請求項8】
前記対象システムを構成する前記デバイスは複数であり、
前記付与指示部は、
複数の前記デバイスのうちの第1のデバイスが備える前記第2付与仲介部の異常の有無を確認し、
前記障害発生指令において、前記構成要素の設定として、前記サブデバイスで実行される前記デバイスアプリ、若しくは、前記サブデバイスで前記デバイスアプリを実行するハードウェアリソースが設定されている場合において、
前記異常がないと確認された場合には、前記第1のデバイスが備える前記第2付与仲介部に指示を与えて、前記障害発生指令に設定されている前記要因を前記障害発生指令に設定されている前記サブデバイスについての前記構成要素に付与させ、
前記異常があると確認された場合には、複数の前記デバイスのうちの前記第1のデバイスとは別の第2のデバイスが備える前記第2付与仲介部に指示を与えて、前記障害発生指令に設定されている前記要因を前記障害発生指令に設定されている前記サブデバイスについての前記構成要素に付与させる
ことを特徴とする請求項7に記載の障害検証システム。
【請求項9】
前記対象システムは、前記クラウドサービスと、前記デバイスと、前記クラウドサービスとの間でデータの授受の処理を行うサブデバイスとから構成されており、
前記第2収集仲介部は、更に、前記サブデバイスで実行される前記デバイスアプリについての実行ログの収集と、前記サブデバイスで前記デバイスアプリを実行するハードウェアリソースについてのメトリクスのログの収集とを行い、
前記受領部は、更に、前記第2収集仲介部が収集した前記サブデバイスについての前記実行ログ及び前記メトリクスのログを前記第2収集仲介部から受け取る、
ことを特徴とする請求項6に記載の障害検証システム。
【請求項10】
クラウドコンピューティングにより提供されるクラウドサービスと、前記クラウドサービスとの間でデータの授受を行うデバイスとから構成される対象システムであって、前記クラウドサービスを提供するクラウドアプリと、前記クラウドアプリを実行するハードウェアであるクラウドリソースと、前記デバイスにおいて前記データの授受の機能を提供するデバイスアプリと、前記デバイスアプリを実行するハードウェアであるデバイスリソースとを構成要素として備える前記対象システムで発生する障害の検証を行う障害検証システムが行う障害検証方法であって、
前記クラウドアプリと前記デバイスアプリとについての実行ログをログ情報として収集し、
前記クラウドリソースと前記デバイスリソースとのそれぞれに関するメトリクスのログをメトリクス情報として収集し、
障害発生の要因を前記対象システムの前記構成要素のいずれかに付与して前記対象システムに障害を発生させ、
前記ログ情報及び前記メトリクス情報を、前記要因を前記構成要素へ付与した時に紐づけて、前記要因毎の障害検証情報として保存する、
ことを特徴とする障害検証方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、情報システムにおいて発生する障害を検証する技術に関する。
続きを表示(約 3,400 文字)
【背景技術】
【0002】
情報システムにおいて発生する障害に対処するための技術として、障害発生時にその障害が原因で波及する可能性のある障害を予測する方法、障害要因の推定精度を向上させる方法、及び信頼性試験のために擬似的に障害を発生させる方法が知られている(例えば、特許文献1~3)。
【先行技術文献】
【特許文献】
【0003】
特開2013-222313号公報
特開2021-128538号公報
特開2011-123783号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
クラウド、オンプレミス、エッジデバイス等の様々な環境に各コンポーネントが分散して配置されて構成される情報システムでは、それぞれが異なるインフラストラクチャ上で稼働し、複雑に連携し合うことになる。このため、想定されていなかったシステム障害が実運用時に発生してしまうことがある。
本発明の1つの側面に係わる目的は、情報システムの障害を事前に検証する方法を提供することである。
【課題を解決するための手段】
【0005】
実施形態のひとつである障害検証システムは、クラウドコンピューティングにより提供されるクラウドサービスと、当該クラウドサービスとの間でデータの授受を行うデバイスとから構成される対象システムで発生する障害の検証を行う。この対象システムは、クラウドサービスを提供するクラウドアプリと、クラウドアプリを実行するハードウェアであるクラウドリソースと、デバイスにおいてデータの授受の機能を提供するデバイスアプリと、デバイスアプリを実行するハードウェアであるデバイスリソースとを構成要素として備える。この障害検証システムは、収集部と付与部と保存部とを備える。収集部は、クラウドアプリとデバイスアプリとについての実行ログをログ情報として収集すると共に、クラウドリソースとデバイスリソースとのそれぞれに関するメトリクスのログをメトリクス情報として収集する。付与部は、障害発生の要因を対象システムの構成要素のいずれかに付与して対象システムに障害を発生させる。保存部は、ログ情報及びメトリクス情報を、当該要因を構成要素へ付与した時に紐づけて、障害検証情報として保存する。
【0006】
他の実施形態に係わる障害検証システムは、第1のOSが実装された第1のプロセッサコアおよび第2のOSが実装された第2のプロセッサコアを備えるマルチコアデバイスを含む対象システムの障害を検証する。この障害検証システムは、前記対象システムの障害を検証するための障害検証情報を作成する障害検証部と、前記障害検証情報を利用して前記対象システムで発生する障害または障害の予兆の原因を特定する障害特定部と、前記第1のプロセッサコアに実装され、前記第1のプロセッサコア内で動作するアプリの実行ログを表す第1のログ情報および前記第1のプロセッサコアのハードウェアの状態を表す第1のメトリクス情報を収集する第1のエージェントと、前記第2のプロセッサコアに実装され、前記第2のプロセッサコア内で動作するアプリの実行ログを表す第2のログ情報および前記第2のプロセッサコアのハードウェアの状態を表す第2のメトリクス情報を収集する第2のエージェントと、を備える。前記障害検証部は、予め指定された複数の障害要因それぞれについて、前記対象システムに当該障害要因を注入したときの前記第1のログ情報および前記第1のメトリクス情報を前記第1のエージェントから受信すると共に、前記対象システムに当該障害要因を注入したときの前記第2のログ情報および前記第2のメトリクス情報を前記第2のエージェントから前記第1のエージェントを介して受信し、前記対象システムに当該障害要因を注入したときの前記第1のログ情報、前記第1のメトリクス情報、前記第2のログ情報、および前記第2のメトリクス情報を前記障害検証情報として保存する。前記障害特定部は、前記対象システムの実運用時に前記第1のエージェントから受信する前記第1のログ情報および前記第1のメトリクス情報、および、前記第2のエージェントから前記第1のエージェントを介して受信する前記第2のログ情報および前記第2のメトリクス情報の少なくとも一部を含むモニタ情報と前記複数の障害要因それぞれについて保存されている前記障害検証情報とを比較することで、前記対象システムにおいて発生する障害または障害の予兆の原因を特定する。
【発明の効果】
【0007】
上記の態様によれば、単体試験または従来型のシステム試験では確認が困難であったシステム障害の事前検証が可能になる。
【図面の簡単な説明】
【0008】
障害検証システムの概要を説明する図である。
障害検証システムの構成例を示す図である。
情報処理装置のハードウェア構成例を示す図である。
障害検証エージェントの処理内容の第1の例を示すフローチャートである。
情報保管処理の処理内容を示すフローチャートである。
障害検証処理の処理内容を示すフローチャートである。
障害検証エージェントの処理内容の第2の例を示すフローチャートである。
障害特定処理の処理内容を示すフローチャートである。
障害検証システムによる対象システムの故障の検証の具体例を説明する図である。
各種テーブルのデータ例を示す図である。
第2の実施形態における検証対象システムおよび障害検証システムの一例を示す図である。
準備フェーズにおけるクラウド側の処理の一例を示すフローチャートである。
準備フェーズにおける障害検証エージェントの処理の一例を示すフローチャートである。
準備フェーズにおいて情報保管部に保存される各種情報の例を示す図である。
障害特定フェーズにおける障害検証エージェントの処理の一例を示すフローチャートである。
障害特定フェーズにおける障害特定部の処理の一例を示すフローチャートである。
17Aは、ログ/メトリクス情報の一例を示し、17B~17Cは、管理者端末に送信される情報の例を示す図である。
フェールセーフフェーズにおけるフェールセーフ制御部の処理の一例を示すフローチャートである。
フェールセーフフェーズにおける障害検証エージェントの処理の一例を示すフローチャートである。
検証対象システムにおいてフェールセーフが実施された状態の一例を示す図である。
【発明を実施するための形態】
【0009】
情報システムのシステム基盤として、クラウドコンピューティングにより提供されるクラウドサービスの活用が盛んになっている。また、情報システムが構築されるインフラ環境(「インフラ」とは、インフラストラクチャの略称)は、1つのデータセンターに留まらない形で拡大し、且つ分散化している。重要な基幹データや更新が難しいアプリケーションをオンプレミスに残すようにした上でクラウドサービスと連携させるハイブリッドクラウドや、現場でリアルタイムにデータ処理を行うエッジコンピューティングは、このようなインフラ環境の例である。このように、システムアーキテクチャとして多くのサービスが紐づき合って構成されている情報システムでは、1つ1つのトラフィックを追跡することが難しくなっている。
【0010】
また、このような情報システムでは、多くのアプリケーションがクラウドベンダ管理下のインフラ上で実行され、また、複雑に連携している。このため、既存のシステム試験では全ての異常系(例えば、ネットワークや演算処理装置の負荷の異常など)を網羅しきれないことがある。また、情報システムを構成するクラウド上の複数のプラットフォーム及び複数のデバイスが異なるインフラ上で分散して稼働し、複雑に連携し合っているため、あるアプリケーションで発生した障害が予期しない別のアプリケーションに影響を及ぼす可能性がある。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
富士電機株式会社
タンク
1か月前
富士電機株式会社
タンク
1か月前
富士電機株式会社
駆動装置
2か月前
富士電機株式会社
半導体装置
1か月前
富士電機株式会社
半導体装置
1か月前
富士電機株式会社
自動販売機
1か月前
富士電機株式会社
エンコーダ
28日前
富士電機株式会社
半導体装置
11日前
富士電機株式会社
エンコーダ
28日前
富士電機株式会社
半導体装置
1か月前
富士電機株式会社
自動販売機
8日前
富士電機株式会社
半導体装置
1か月前
富士電機株式会社
半導体装置
1か月前
富士電機株式会社
リニアモータ
2か月前
富士電機株式会社
飲料供給装置
1か月前
富士電機株式会社
組み込み機器
27日前
富士電機株式会社
飲料供給装置
1か月前
富士電機株式会社
分析システム
29日前
富士電機株式会社
商品収納装置
26日前
富士電機株式会社
商品収納装置
1か月前
富士電機株式会社
金銭処理装置
26日前
富士電機株式会社
金銭処理装置
26日前
富士電機株式会社
静止誘導電器
1か月前
富士電機株式会社
飲料供給装置
2か月前
富士電機株式会社
通貨識別装置
13日前
富士電機株式会社
飲料供給装置
8日前
富士電機株式会社
金銭処理装置
4日前
富士電機株式会社
電力変換装置
1日前
富士電機株式会社
半導体モジュール
28日前
富士電機株式会社
部分放電測定装置
8日前
富士電機株式会社
コンテナシステム
1か月前
富士電機株式会社
情報処理システム
2か月前
富士電機株式会社
ガス処理システム
4日前
富士電機株式会社
電力量調整システム
1か月前
富士電機株式会社
自動販売機システム
1か月前
富士電機株式会社
診断装置、診断方法
1か月前
続きを見る
他の特許を見る