Meta AI Infrastructure Overview (1)

Meta의 AI 인프라 개요

Meta는 AI 하드웨어, 네트워크, 스토리지, 소프트웨어 전반에 걸쳐 대규모 투자를 진행하고 있으며, Llama 3와 같은 초대형 모델의 개발과 훈련을 가능하게 하는 세계적 수준의 인프라를 구축하고 있습니다.

2024년 말까지 Meta는 35만개의 NVIDIA H100 GPU를 포함, 약 60만개의 H100 GPU에 상응하는 컴퓨팅 파워를 갖춘 인프라를 운영하는 것을 목표로 합니다.

‼ 해당 자료는 Llama3 개발 시점을 기준으로 작성되었습니다.

Meta의 AI 클러스터는 단순히 GPU를 많이 연결한 구조가 아니라, 고효율·고신뢰·고확장성을 동시에 추구하는 설계를 기반으로 합니다.

구성 상세
- 한 개의 데이터센터 규모 클러스터는 약 3,072개의 Grand Teton 노드로 구성되며,
  
  각 노드는 8개의 NVIDIA H100 GPU를 탑재합니다. (24,576 H100 cluster)
  
  https://engineering.fb.com/2024/10/15/data-infrastructure/metas-open-ai-hardware-vision/
- Open Rack v3(ORV3)는 랙당 2개 노드를 수용하며 총 1,536개의 랙이 있습니다.
  
  https://engineering.fb.com/2024/10/15/data-infrastructure/metas-open-ai-hardware-vision/
- 전체 클러스터를 8개의 Pod(192 racks) 단위로 분할하여 관리하며, Pod는 클러스터 내부에서 독립적으로 확장 및 운영이 가능한 논리적/물리적 단위입니다.
운영상의 과제
- 열 설계 한계: H100 GPU의 TDP는 700W 이상이며, 랙 단위에서 수십 kW에 달하는 전력 소모, 액체 냉각(Liquid Cooling) 필요
- 전력 인프라: Pod 단위 증설 시 데이터센터 전체 전력망에서 수십 MW 급 순간 부하 변동 발생 가능 → 정밀 전력 분산 제어 필요

Clos 네트워크 패브릭 : RoCEv2 기반 패브릭(소형 모델 학습은 동일 규모의 Infiniband 클러스터 활용)

https://engineering.fb.com/2024/08/05/data-center-engineering/roce-network-distributed-ai-training-at-scale/
- RoCEv2
  - ToR(T0, Rack Training SW) : Minipack2 OCP rack switch (16 GPUs 연결)
  - Cluster Switch(T1, Cluster Training SW) : Arista 7800 1:1 non-blocking (192 Racks 연결)
  - Aggregate Switch(T2, Aggregator Training SW) : Arista 7800 1:7 oversubscription (8 Pods 연결)
- Infiniband
  - Nvidia Quantum2 Infiniband fabric
- RoCEv2, IB 두 방식 모두 400Gbps 상호 연결을 제공하여, 초대형 GenAI ,워크로드에서 병목 없는 성능을 보장
- 네트워크 토폴로지 인지형 작업 스케줄링으로 Pod 간 통신 최소화
- 부하 분산 및 혼잡 제어
  - E-ECMP로 네트워크 플로우를 효과적으로 분산
  - 딥 버퍼 스위치를 활용하여 혼잡 제어(DCQCN 등) 없이도 안정적으로 운영