래블업, NVIDIA GTC 2026에서 B200 GPU 500대 규모 소버린 AI 학습 인프라 운영 경험 공개
- 73일간 B200 60노드 이상 클러스터 운영, 기존 대비 평균 장애 복구 시간 47% 단축
- 업스테이지 Solar Open 100B 학습 인프라 파트너로서 쌓은 실전 운영 전략 발표
- Backend.AI Continuum 모델 라우트 기능, NVIDIA DGX Spark 기반 Backend.AI:GO 체험형 시연 운영
AI 인프라 전문 기업 래블업 주식회사(대표 신정규)가 3월 16~19일 미국 산호세에서 열리는 NVIDIA GTC 2026에서 NVIDIA B200 GPU 504대 규모의 소버린 AI(Sovereign AI, 국가·기관이 독자적으로 구축·운영하는 AI) 학습 인프라 운영 경험을 공개한다. 3월 18일(현지시간) GTC Theater Session에서 래블업은 73일간의 클러스터 운영에서 쌓은 내결함성 스케줄링 전략과 장애 복구 기법을 발표하며, 전시장에서는 Backend.AI Continuum의 장애 자동 복구 체험과 DGX Spark 기반 Backend.AI:GO 시연도 함께 진행한다.
래블업, Sovereign AI 구축 위한 100B 모델 학습 과정에서의 인프라 운영 사례 발표
신정규 대표는 세션 'Building Sovereign AI: Scaling 100B+ Model Training on NVIDIA Blackwell Infrastructure'에서 B200 60노드 이상(GPU 504대) 클러스터로 1,000억 파라미터급 모델을 처음부터 학습시킨 과정을 발표한다. 이 프로젝트는 과학기술정보통신부·정보통신산업진흥원(NIPA) 주관 '독자 AI 파운데이션 모델 개발' 과제의 일환으로, 래블업은 업스테이지 컨소시엄의 인프라 파트너로서 업스테이지의 Solar Open 100B 학습을 뒷받침했다.
래블업은 GPU 오류, NCCL(GPU 간 집합 통신 라이브러리) 타임아웃 등 대규모 분산 학습에서 반복적으로 발생하는 장애를 자동 감지하고 복구하는 내결함성 스케줄링 구조를 구축했다. 기존 대비 평균 장애 복구 시간을 47% 줄였고, 프로세스 재시작까지 3초 이내로 단축했다. NFS 드라이버 설정 오류 하나가 성능을 10분의 1로 떨어뜨린 사례를 추적·해결한 과정도 공유한다. 이 밖에 MXFP8(8비트 부동소수점) 정밀도에서의 학습 안정성 확보, RoCE(RDMA over Converged Ethernet) 및 InfiniBand 환경에서의 NCCL 튜닝 등 Blackwell 세대에 맞춘 최적화 기법도 다룬다.
Backend.AI Continuum의 자동 복구와 Backend.AI:GO의 로컬 AI 환경, GTC2026서 공개
NVIDIA GTC2026 관람객을 위해 기술 시연도 준비했다. 래블업 (243번 부스)을 방문하면 관람객들은 Backend.AI Continuum의 모델 라우트 기능을 직접 체험할 수 있다. 관람객이 네트워크 케이블을 뽑아 장애 상황을 만들면, 추론 요청이 다른 경로로 자동 전환되는 과정을 실시간으로 확인할 수 있다. 클라우드 접속이 끊겨도 로컬 자원으로 즉시 전환해 API 호출을 유지하는 Continuum의 내결함성을 관람객이 손으로 직접 확인하는 방식이다.
NVIDIA DGX Spark에서 구동되는 Backend.AI:GO도 함께 선보인다. Backend.AI:GO는 개인 노트북이나 데스크톱뿐 아니라 DGX Spark처럼 128GB 통합 메모리를 갖춘 AI 전용 장비에서도 동작하며, 장비의 성능을 온전히 끌어내 사용자에게 로컬 AI 환경을 제공한다.
래블업 신정규 대표는 "504대의 B200을 73일간 운영하면서 대규모 분산 학습이 실전에서 어떻게 무너지고, 어떻게 다시 세우는지를 체계화할 수 있었다"며 "이번 GTC에서는 그 경험을 그대로 공유하고, 이를 바탕으로 국가와 산업이 독자적으로 AI를 운용할 수 있는 소버린 AI 인프라 구축의 비전을 제시하겠다"고 말했다.