執筆:白米元気
OpenAIが新たに発表したネットワークプロトコルMRCは、AIスパコン内でのデータ転送を劇的に効率化することが期待されています。このプロトコルは特に、AI技術の進化に伴うデータ転送のニーズの高まりに応える形で開発されました。
OpenAIと業界大手が協力して開発したMRCの詳細
OpenAIは、AMD、Broadcom、Intel、Microsoft、NVIDIAといった業界のリーダーたちと手を組み、新しいネットワークプロトコル「MRC(Multipath Reliable Connection)」を開発しました。このプロトコルは、大規模なAIスパコンにおけるGPU間のデータ転送を迅速かつ安定的に行うことを目的としており、その革新的な設計によってGPU同士の通信がこれまで以上に効果的になります。具体的には、従来の単一経路によるデータ転送ではなく、数百の経路を利用してデータパケットを同時に分散させることでネットワークの混雑を軽減することができます。これによって、データ転送の遅延が大幅に減少し、よりスムーズな処理が実現されます。さらに、万が一ネットワーク経路やリンクが故障した場合でも、このMRCプロトコルは迅速に問題を検出し、マイクロ秒単位で迂回する能力を持っています。従来のネットワークでは故障後に安定するまで数秒から数十秒かかることが一般的でしたが、この機能のおかげでトレーニング中断のリスクが大幅に軽減されることになります。MRCは、一つのネットワークで10万以上のGPUを接続できるように設計されており、そのためには従来必要だった三層または四層のイーサネットスイッチではなく、二層のみで運用可能です。この結果として電力消費や部品数が削減されるだけでなく、全体的なコストも低減される見込みです。
MRC導入によって変わるAIトレーニング環境
MRCはすでにOpenAIが運用する主要なNVIDIA GB200スパコンにも導入されており、その中にはテキサス州アビレーンに位置するOracle Cloud InfrastructureサイトやMicrosoftが展開するFairwaterスパコンも含まれています。最近行われたChatGPTやCodex用のフロンティアモデルのトレーニング中には、このプロトコルのおかげで四つのTier-1スイッチを再起動する必要があったにも関わらず、その調整なしで作業を続けられたという報告があります。このような柔軟性と迅速性は、大規模なトレーニング環境において特に重要であり、多くの研究者やエンジニアたちから高く評価されています。またMRCの仕様については、本日Open Compute Project(OCP)を通じて一般公開されました。この開発にはOpenAIのみならず、多くの業界リーダーも貢献しており、その協力によって画期的なプロトコルが生まれたことは非常に意義深いものです。
新たな技術革新としてのMRC
OpenAIによって生み出された新しいネットワークプロトコルMRCは、大規模なAIスパコンにおけるデータ転送効率化と信頼性向上を目指しています。この技術革新によって、今後ますます多様化するAIモデルのトレーニングがより効率的かつ効果的に行えるようになるでしょう。これにより、研究者や開発者たちが新しいアイデアや技術を試すための時間とリソースも大幅に節約できることが期待されています。このような進展はAI分野全体にとっても大きなプラスとなり、多くの革新的なアプリケーションやサービスが生まれる基盤となることでしょう。

コメント