Meta의 AI 인프라 개요

Meta는 AI 하드웨어, 네트워크, 스토리지, 소프트웨어 전반에 걸쳐 대규모 투자를 진행하고 있으며, Llama 3와 같은 초대형 모델의 개발과 훈련을 가능하게 하는 세계적 수준의 인프라를 구축하고 있습니다.

2024년 말까지 Meta는 35만개의 NVIDIA H100 GPU를 포함, 약 60만개의 H100 GPU에 상응하는 컴퓨팅 파워를 갖춘 인프라를 운영하는 것을 목표로 합니다.

‼ 해당 자료는 Llama3 개발 시점을 기준으로 작성되었습니다.

설계 원칙


1. 컴퓨팅(Compute)

Meta의 AI 클러스터는 단순히 GPU를 많이 연결한 구조가 아니라, 고효율·고신뢰·고확장성을 동시에 추구하는 설계를 기반으로 합니다.

2. 네트워크(Networking)

https://youtu.be/bvUFGrnVBiQ?si=HYj1Fmo2JQ8bgaL7

https://youtu.be/bvUFGrnVBiQ?si=HYj1Fmo2JQ8bgaL7

3. 스토리지(Storage)

https://blocksandfiles.com/2024/03/13/meta-hammerspace-ai/

https://blocksandfiles.com/2024/03/13/meta-hammerspace-ai/