Meta는 AI 하드웨어, 네트워크, 스토리지, 소프트웨어 전반에 걸쳐 대규모 투자를 진행하고 있으며, Llama 3와 같은 초대형 모델의 개발과 훈련을 가능하게 하는 세계적 수준의 인프라를 구축하고 있습니다.
2024년 말까지 Meta는 35만개의 NVIDIA H100 GPU를 포함, 약 60만개의 H100 GPU에 상응하는 컴퓨팅 파워를 갖춘 인프라를 운영하는 것을 목표로 합니다.
‼ 해당 자료는 Llama3 개발 시점을 기준으로 작성되었습니다.
Meta의 AI 클러스터는 단순히 GPU를 많이 연결한 구조가 아니라, 고효율·고신뢰·고확장성을 동시에 추구하는 설계를 기반으로 합니다.
한 개의 데이터센터 규모 클러스터는 약 3,072개의 Grand Teton 노드로 구성되며,
각 노드는 8개의 NVIDIA H100 GPU를 탑재합니다. (24,576 H100 cluster)

https://engineering.fb.com/2024/10/15/data-infrastructure/metas-open-ai-hardware-vision/
Open Rack v3(ORV3)는 랙당 2개 노드를 수용하며 총 1,536개의 랙이 있습니다.

https://engineering.fb.com/2024/10/15/data-infrastructure/metas-open-ai-hardware-vision/
전체 클러스터를 8개의 Pod(192 racks) 단위로 분할하여 관리하며, Pod는 클러스터 내부에서 독립적으로 확장 및 운영이 가능한 논리적/물리적 단위입니다.

https://youtu.be/bvUFGrnVBiQ?si=HYj1Fmo2JQ8bgaL7
Clos 네트워크 패브릭 : RoCEv2 기반 패브릭(소형 모델 학습은 동일 규모의 Infiniband 클러스터 활용)

https://engineering.fb.com/2024/08/05/data-center-engineering/roce-network-distributed-ai-training-at-scale/

https://blocksandfiles.com/2024/03/13/meta-hammerspace-ai/