CTC 教育サービス
[IT研修]注目キーワード Python UiPath(RPA) 最新技術動向 Microsoft Azure Docker Kubernetes
今回からは、2020年に公開された論文「Data Center Power Oversubscription with a Medium Voltage Power Plane and Priority-Aware Capping」を紹介していきます。大規模なデータセンターでは、サーバーや空調設備が使用する電力コストに加えて、電力を供給するための電源設備そのものにも多大な投資が必要です。Googleのデータセンターでは、複数の発電装置を束ねた「Generator Farm」により、電源設備の利用効率を示すオーバーサブスクリプションを一般的なデータセンターよりも高めることに成功しています。
はじめに、サーバークラスターの例を用いて、電源設備の「オーバーサブスクリプション」を説明します。複数のサーバーを束ねたサーバークラスターを構築する際、クラスターに含まれるサーバーの稼働率には時間的な変動があり、一般には、サービス利用のピークに合わせてクラスターのサイズを決める必要があります。当然ながら、ピーク時間以外はサーバーの稼働率は低くなり、サーバーリソースに無駄が生じることになります。この際、ピーク時間が異なるサービスを1つのクラスターにまとめて同居させると、サービスごとに個別のクラスターを用意するよりは、全体のサーバー数は少なくすることができます。
実は、これと同じ考え方がデータセンターの電源設備にも当てはまります。通常時は、外部から供給される電力をデータセンター全体で使用するので問題ありませんが、災害などによる停電時は、バックアップ電源(自家発電装置)に切り替える必要があります。この際、ピーク時の電力使用量に応じてバックアップ電源を用意する必要があるため、クラスターごとに小規模なバックアップ電源を用意するよりは、複数のクラスターにまとめて電力供給ができる「バックアップ電源クラスター(論文内ではGenerator Farmと表現)」を用意した方が、必要となるバックアップ電源の数は、全体としては少なくなります。
なお、停電などの緊急時には、サーバー上で稼働している優先度の低いジョブを強制停止するなどの対応も取れるため、バックアップ電源の容量は、(すべてのサーバーがフル稼働しているという)理論上のピーク値に合わせる必要はありません。理論上のピーク値が実際の電源容量を超える状況を「オーバーサブスクリプション」と言います。通常のデータセンターであれば、このオーバーサブスクリプションは数%に留まりますが、Googleのデータセンターでは、先ほどのGenerator Farmを用いることで、25%のオーバーサブスクリプションを実現していることが論文内で報告されています。これは、電源設備に対する設備投資のコストを抑制する上で大きな効果があるということです。
今回は、一般的なデータセンターの電源設備の仕組みを説明した上で、オーバーサブスクリプションを高くできない要因を説明します。まず、一般的なデータセンターにおける電源設備の模式図は、図1のようになります。
図1 一般的なデータセンターの電源設備(論文より抜粋)
「Utility Source」は、外部の電力会社から供給される商用電力源を示しており、冗長化のために2種類の電力源を使用しています。電力会社からは、25〜35kV(二万五千〜三万五千ボルト)という非常に高い電圧の電力が供給されますが、「Medium Voltage Distoribution(中電圧配電装置)」で15kV(一万五千ボルト)程度に減圧したものが建屋内に引き込まれます。その後、複数の「Low Voltage PDU(低電圧配電盤)」を介して、サーバーに適した電圧の電力がサーバーラックへと送り込まれます。それぞれのPDUには、バックアップ用の自家発電装置(図中の「G」で示された装置)から400V程度の電圧が供給できるようになっており、万一、外部からの電力供給が途絶えた際は、これらのバックアップ電源が稼働します。また、PDUの故障にそなえて、予備のPDU(Isolated Redundant PDU)も用意されています。
この構成においては、1台のバックアップ電源の容量によって、1つのPDUに接続できるサーバー数が決まります。具体的には、1つのPDUの先にあるすべてのサーバーがフル稼働した場合を想定して、ピーク時の電力使用量がバックアップ電源の性能を超えないように設計する必要があります。先ほどのサーバークラスターの例で言うと、小規模なサーバークラスターが多数あるような状況です。
一方、Googleのデータセンターにおける電源設備は、図2のような構成になっています。
図2 Googleのデータセンターの電源設備(論文より抜粋)
ここでは、PDUごとにバックアップ電源を個別に接続するのではなく、複数の自家発電装置を束ねた「Generator Farm」を商用電力源と並列に配置しています。つまり、複数のPDU(および、その先にあるサーバー群)がバックアップ電源を共有する形になります。この場合、バックアップ電源を共有するすべてのサーバーが同時にフル稼働するという状況は考えづらく、自家発電装置の総数が同じであっても、図1よりも多くのサーバーを安全に接続することができます。つまり、オーバーサブスクリプションの値をより高くすることが可能になります。
ただし、これだけでは、バックアップ電源の容量を超えてサーバーが稼働しないという保証はありません。実際に停電が発生した場合は、バックアップ電源からの電力供給とサーバーの稼働率をモニタリングして、サーバー上のジョブを適切にコントロールする必要があります。この点については、次回に引き続き解説を続けます。
今回は、2020年に公開された論文「Data Center Power Oversubscription with a Medium Voltage Power Plane and Priority-Aware Capping」に基づいて、Googleのデータセンターにおける電源設備の構成を紹介しました。次回は、電源装置、および、サーバーから収集したデータを用いて、電力使用量の予測と制御を行う仕組みを解説していきます。
Disclaimer:この記事は個人的なものです。ここで述べられていることは私の個人的な意見に基づくものであり、私の雇用者には関係はありません。
[IT研修]注目キーワード Python UiPath(RPA) 最新技術動向 Microsoft Azure Docker Kubernetes