特許ウォッチ

公開番号2025140985
公報種別公開特許公報(A)
公開日2025-09-29
出願番号2024040664
出願日2024-03-15
発明の名称システム及びマイグレーション方法
出願人日本電気株式会社
代理人個人,個人
主分類G06F 9/50 20060101AFI20250919BHJP(計算;計数)
要約【課題】仮想マシンとGPUを連動してマイグレーションする技術を提供する。
【解決手段】システムは、仮想マシンが稼働する第1の装置と、前記仮想マシンのマイグレーション先となる第2の装置と、前記第1の装置と接続し、前記仮想マシンに割り当てられたプロセッサを搭載する第3の装置と、前記第1の装置から第2の装置に前記仮想マシンをマイグレーションする手段と、を備え、前記マイグレーションする手段は、前記仮想マシンを前記第1の装置から前記第2の装置にマイグレーションする際に、前記第3の装置を前記第1の装置から切り離して、前記第2の装置に接続し、前記第2の装置にマイグレーションされた前記仮想マシンに前記プロセッサを割り当てて起動する。
【選択図】図10
特許請求の範囲【請求項１】
仮想マシンが稼働する第１の装置と、
前記仮想マシンのマイグレーション先となる第２の装置と、
前記第１の装置と接続し、前記仮想マシンに割り当てられたプロセッサを搭載する第３の装置と、
前記第１の装置から前記第２の装置に前記仮想マシンをマイグレーションする手段と、
を備え、
前記マイグレーションする手段は、前記仮想マシンを前記第１の装置から前記第２の装置にマイグレーションする際に、前記第３の装置の接続先を前記第１の装置から前記第２の装置に切り替え、前記第２の装置にマイグレーションした前記仮想マシンに前記プロセッサを割り当てて起動する、
システム。
続きを表示（約 2,000 文字）【請求項２】
前記第１の装置と前記第３の装置はPCIe over Ethernetで接続され、
前記マイグレーションする手段は、前記仮想マシンを前記第１の装置から前記第２の装置にマイグレーションする際に、前記第３の装置と前記第１の装置のPCIe over Ethernetによる接続を切断して、前記第３の装置と前記第２の装置をPCIe over Ethernetで接続する、
請求項１に記載のシステム。
【請求項３】
前記マイグレーションする手段は、
前記第３の装置のPCIe Expander Engineの接続先情報を、前記第１の装置から前記第２の装置へ書き換えることにより、前記第３の装置の接続先を前記第２の装置へ切り替える、
請求項２に記載のシステム。
【請求項４】
前記マイグレーションする手段は、
前記第２の装置の前記仮想マシンに前記プロセッサを割り当てて起動する際に、前記プロセッサのメモリのリセットを無効化して起動する
請求項１または請求項２に記載のシステム。
【請求項５】
前記マイグレーションする手段は、
マイグレーション前に前記第１の装置で前記仮想マシンが処理した処理結果の情報を、前記プロセッサのメモリにロードせずに、前記第２の装置で起動した前記仮想マシンに前記処理を実行させる、
請求項４に記載のシステム。
【請求項６】
前記システムは、前記第１の装置と前記第２の装置との両方からアクセス可能な記憶装置をさらに備え、
前記第１の装置の前記仮想マシンでは、LLMの学習処理が実行され、チェックポイントごとに前記学習処理の結果情報が前記記憶装置に記録され、
前記学習処理中に前記第１の装置が使用できない状況となると、前記マイグレーションする手段は、前記記憶装置に記録された前記結果情報を前記プロセッサのメモリにロードすることなく、前記第２の装置で前記学習処理を継続する、
請求項５に記載のシステム。
【請求項７】
前記マイグレーションする手段は、
前記第１の装置のハイパーバイザー、クラスタリングソフトウェアおよび接続手段と、
前記第２の装置のハイパーバイザー、クラスタリングソフトウェアおよび接続手段と、
前記第３の装置の接続手段と、
前記第１の装置の接続手段と前記第２の装置の接続手段と前記第３の装置の接続手段を制御する手段と、を含み、
前記仮想マシンを前記第１の装置から前記第２の装置にマイグレーションする際に、
前記第１の装置のクラスタリングソフトウェアは前記第１の装置のハイパーバイザーに前記仮想マシンの停止を指示するとともに、前記制御する手段に前記プロセッサの接続先の切り替えを指示し、
前記制御する手段は前記第３の装置の接続先を前記第１の装置から前記第２の装置に切り替えるとともに、前記プロセッサがマイグレーションの対象であることを示すフラグを前記第３の装置の接続手段に記録して、前記第２の装置のクラスタリングソフトウェアに前記プロセッサを前記仮想マシンへ割り当てることを指示し、
前記第２の装置のクラスタリングソフトウェアは前記プロセッサを前記仮想マシンに割り当てて、
前記第２の装置のハイパーバイザーが前記仮想マシンを起動し、
前記仮想マシンの起動時に、前記第２の装置の前記ハイパーバイザーは、前記第３の装置の接続手段を通じて前記プロセッサにアクセスする際に前記フラグの有無を確認し、フラグがあった場合、前記プロセッサのメモリのリセットを行わない、
請求項１に記載のシステム。
【請求項８】
前記マイグレーションする手段は、
前記第１の装置から前記第２の装置に前記仮想マシンと前記第３の装置に搭載された前記プロセッサ以外のIOデバイスをマイグレーションする、
請求項１又は請求項２に記載のシステム。
【請求項９】
前記IOデバイスは、NIC、ストレージ、USBボード、キャプチャボードの何れかである、
請求項８に記載のシステム。
【請求項１０】
仮想マシンが稼働する第１の装置と、
前記仮想マシンのマイグレーション先となる第２の装置と、
前記第１の装置と接続し、前記仮想マシンに割り当てられたプロセッサを搭載する第３の装置と、を含むシステムにおいて、
前記仮想マシンを前記第１の装置から前記第２の装置にマイグレーションする際に、前記第３の装置の接続先を前記第１の装置から前記第２の装置に切り替え、前記第２の装置にマイグレーションした前記仮想マシンに前記プロセッサを割り当てて起動する、
マイグレーション方法。

発明の詳細な説明【技術分野】
【０００１】
本開示は、システム及びマイグレーション方法に関する。
続きを表示（約 4,100 文字）【背景技術】
【０００２】
OpenAI（登録商標）によるChatGPT（登録商標）の公開により、10-100Bパラメータの大規模言語モデル(以下、LLM(Large Language Models)と記載)が注目されている。OpenAI（登録商標）のGPT-3（登録商標）は175Bパラメータ、GPT-3.5は355Bパラメータと言われている。大量のパラメータを持つLLMの学習には、多数のＧＰＵ（Graphics Processing Unit)を用いて長時間の学習が必要になる。現実的には、学習時間に生じるメンテナンスや障害発生によるダウンタイムも考慮する必要がある。発生する障害には、電源断やディスクの故障等のハードウェア障害、ダウンやストール等のＯＳ（Operating System）障害、ソフトウェア障害が挙げられ、サーバに障害が発生すると復旧するまで学習が中断される。より短時間で学習を完了させるために、システムの安定化と障害復旧時間を短縮する方法が求められている。
【０００３】
システムを安定化し、復旧時間を短縮する従来技術としてクラスタリングソフトウェアによるVirtual Machine（仮想マシン）のマイグレーションが挙げられる。クラスタリングソフトウェアとは、１台のアクティブサーバ、１台以上のバックアップサーバで構成されるクラスタ構成を制御するソフトウェアである。図１にシステム構成例を示す。図１の例では、アクティブサーバ１とバックアップサーバ２が、Network Interface Card(NICと称する)３ａ、３ｂを介して、共有ディスク４に接続されている。アクティブサーバ１には、CPU５ａおよびGPU７ａが搭載されている。CPU５ａでは、OS６ａが稼働し、OS６ａにはクラスタリングソフトウェア８ａと仮想マシンを作成・実行するソフトウェアであるHypervisor（ハイパーバイザー）９ａが実装されている。バックアップサーバ２についても同様に、CPU５ｂおよびGPU７ｂが搭載され、CPU５ｂではOS６ｂが稼働し、OS６ｂにはクラスタリングソフトウェア８ｂとHypervisor９ｂが実装されている。また、アクティブサーバ１にはHypervisor９ａにVirtual Machine１０が構築されており、Virtual Machine１０には、GPU７ａの初期化プロセスを実行するGPU Driver１１や大規模学習を実行するためのLLMのApplication１２が実装されている。
【０００４】
アクティブサーバ1に障害が発生すると、図２に示すようにVirtual Machine１０を、共有ディスク４を介してバックアップサーバ２に引き継ぐことができる。その際、バックアップサーバ２に移行したVirtual Machine１０の起動時にGPU Driver１１による初期化プロセスが実行され、GPU７ｂのメモリはリセットされることで、アクティブサーバ１で学習した際のGPUデータが消去される。しかし、LLM Application１２は共有ディスク４に学習中の途中結果をチェックポイントとしてファイルで保存できるため、バックアップサーバ２でLLM Application１２が起動する時に共有ディスク４からチェックポイントファイルを取得し、GPU７ｂにデータをロードすることで、アクティブサーバ１で学習が中断された場合でも、バックアップサーバ２でチェックポイントから学習を再開できる。しかし、Virtual Machine１０のマイグレーションだけでは、アクティブサーバ１とバックアップサーバ２の両方にGPUを用意する必要がある。そのため、バックアップサーバ２に装着されているGPU７ｂはアクティブサーバ１に障害が発生するまで待機する必要があり、データセンタ内のGPU総数に対するGPUの稼働率が低くなる。さらに、待機中のGPU７ｂも電力を消費するためコストが増加し、二酸化炭素排出量も増加する。
【０００５】
また、Virtual Machine１０をバックアップサーバ２への移行した後に起動する際、GPU７ｂの初期化プロセスが作動し、メモリがリセットされる。そのため、共有ディスク４からアクティブサーバ１での学習時のデータをGPU７ｂにロードする必要があり、マイグレーションに時間を要する。
【０００６】
GPUのコストを削減する方法として、MR-IOV（Multi Root I/O Virtualization）によってGPUを搭載したデバイスを共有する方法が挙げられる。MR-IOVは専用のPCIe（Peripheral Component Interconnect Express） Switchを使用し、複数OS間でPCIeデバイスを共有することができる規格である。しかし、専用のPCIe Switchは高価であり、汎用性に欠ける。安価なEthernet Switchを用いて実現可能な方法として、PCIe over Ethernet技術によるGPUのマイグレーションが挙げられる。PCIe over Ethernet技術は、サーバ内部の様々なPCIeデバイスの接続に用いられているPCIeのインターコネクトをEthernetのような汎用ネットワークに拡張することができる技術である。図３にシステム構成例を示す。サーバ１４には、CPU１７ａ、PCIe Expander Engine(Server)（以下、EE（Server）と記載）１８が搭載され、EE（Server）１８はNVM(不揮発メモリ)２２ａを有している。同様に、サーバ１５には、CPU１７ｂ、EE（Server）１９が搭載され、EE（Server）１９はNVM２２ｂを有している。I/O拡張筐体１６は、GPU２１と、PCIe Expander Engine(IO)（以下、EE（IO）と記載）２０が搭載され、EE（IO）２０はNVM２２ｃを有している。EE（Server）１８、１９はサーバ側の機能を持ち、EE（IO）２０はI/O側の機能を持つ。サーバ１４、１５とI/O拡張筐体１６は汎用ネットワーク１３に接続されている。EE（Server）１８、１９、EE（IO）２０は、汎用ネットワーク13を介して互いに通信を行う。EthernetでPCIeのパケットを転送する場合、PCIeのパケットをEthernetのフレームにカプセル化して転送を行う。NVM２２ａ～２２ｃはGroup IDを保持し、同じGroup IDを保持するEE(Server)とEE(IO)間で接続する。例えば、図３の例では、NVM２２ａとNVM２２ｃがGroup ID＝１を保持し、NVM２２ｂがGroup ID＝２を保持するため、EE（Server）１８とEE（IO）２０が接続される。汎用ネットワーク３にEthernetを使用する場合、VLANの設定を使用し、設定することができる。例えば、EE(IO)２０のGroup IDを、稼働中のサーバのEE(server)１８のGroup ID＝１から移行先のサーバのEE(Server)１９のGroup ID＝２に変更することで図４に示すように、I/O拡張筐体１６の接続先をサーバ１４からサーバ１５に変更することができる。
【０００７】
例えば、サーバ１４にて、I/O拡張筐体１６のGPU２１が割り当てられた仮想マシンが稼働しているとする。その仮想マシンのアプリケーションがLLMの大規模学習を実行しているときにサーバ１４に障害が発生したとすると、LLMの大規模学習を継続するためには、Virtual MachineとGPUを連動してマイグレーションする必要がある。サーバ１４からサーバ１５への仮想マシンのマイグレーションとともに、EE(IO)２０のGroup IDを１から２へ変更することにより、GPUのマイグレーションが可能であると考えられる。しかし、クラスタリングソフトウェアによる仮想マシンのマイグレーションはソフトウェア領域、PCIe over Ethernet技術はハードウェア領域で個々に確立されている技術である。領域の離れた技術をシステムとして一体的に機能させるためにはVirtual Machineやデバイスを監視し、連携させる必要がある。より具体的には、LLM等の大規模学習中に発生し得るメンテナンスや障害発生等を見込んだトータルの学習時間を短縮するためには、クラスタリングソフトウェアによるマイグレーションとPCIe over Ethernetで接続されたI/O拡張筐体１６の接続先の切り替えを連動させる仕組みが必要である。しかし、このような仕組みは確立されていない。
【０００８】
例えば、特許文献１には、ネットワークサービスを提供するシステムにおいて、当該サービスの機能を実現している仮想マシンを別のハードウェアに自動で移行させることにより、ハードウェアの障害発生時やメンテナンス時にもネットワークサービスを継続できるようにするシステムが開示されている。しかし、この技術はクラスタリングソフトウェアによるマイグレーションとネットワークを介して接続されたデバイス（上記例のI/O拡張筐体16）の切り替えを連動させるものではない。
【先行技術文献】
【特許文献】
【０００９】
国際公開第２０２２／１７２０６３号
【発明の概要】
【発明が解決しようとする課題】
【００１０】
仮想マシンのマイグレーションと、仮想マシンとネットワークを介して接続されているデバイスの接続先をマイグレーション後の仮想マシンへ切り替える処理と、を連動させる方法を提供することを目的の一つとする。
【課題を解決するための手段】
（【００１１】以降は省略されています）

関連特許