top of page

초거대 언어 모델 기반 서비스 개발을 위한 Full Stack - NVIDIA NeMo Megatron + DGX SuperPOD

최근 KT가 NVIDIA NeMo Megatron 프레임워크와 DGX SuperPOD을 기반으로 초거대 언어 모델인 MI:DEUM을 구축했다는 소식이 들렸습니다. KT가 NVIDIA의 기술을 활용한 이유는? 초거대 언어 모델 관련 시행착오를 최소화하기 위해서입니다. 초거대 언어 모델 프로젝트는 심적으로 물적으로 엄청 부담이 됩니다. 하드웨어부터 소프트웨어까지 전체 기술 스택에 정통하는 것이 불가능에 가깝다 보니 시행착오를 격어야 하는데 이게 큰 부담으로 다가오는 것이죠. NVIDIA가 이런 현실적 어려움을 해결하기 위해 내놓은 해결책이 바로 ‘NVIDIA NeMo Megatron + DGX SuperPOD(또는 BasePOD)’ 조합입니다.

초거대 언어 모델(LLM)을 위한 풀스택이란 바로 이런 것!


NVIDIA NeMo Megatron + DGX SuperPOD 조합을 왜 풀스택이라 하는지 간단히 살펴보겠습니다. NeMo Megatron은 초거대 언어 모델 개발 절차를 간소화하고 훈련과 추론 작업을 매우 효율적으로 할 수 있는 단일 코드 베이스의 프레임워크입니다.

모델 훈련과 추론 작업을 하려면 GPU 기반 인프라를 매우 유연하게 활용할 수 있어야 합니다. 이 역할을 맡고 있는 것은 NVIDIA Base Command입니다. 이를 이용하면 컴퓨팅, 스토리지, 네트워킹 등의 자원을 AI 개발자, 데이터 과학자 등의 프로젝트 참여자가 유연하게 활용할 수 있습니다.


초거대 언어 모델이다 보니 엄청난 컴퓨팅 파워가 필요하죠. 이는 NVIDIA DGX SuperPOD이나 BasePOD이 담당합니다. 인프라를 구성하는 모든 장비를 따로 발주 내고 도입해 설치하고 구성하는 수고를 할 필요가 없습니다. 유클릭 같은 NVIDIA 엘리트 파트너의 도움을 받으면 도입 후 바로 프로젝트를 추진할 수 있습니다.이를 단계로 구분하면 다음과 같습니다.


1단계: NVIDIA DGX SuperPOD 또는 DGX BasePOD 인프라와 Base Command Software로 구축한 엔터프라이즈 AI 컴퓨팅 플랫폼 환경에서 NVIDIA NeMo Megatron을 사용해 사내 데이터 또는 사외 데이터를 활용해 초거대 언어 모델을 훈련합니다.


2단계: 다양한 다운스티림 작업을 미세 조정하여 정확보를 확보합니다. 여기에 더해 NeMo Guardrails를 활용해 초거대 언어 모델의 환각 문제를 최소화하여 신뢰성을 확보합니다.


3단계: NVIDIA의 Triton Inference Server를 이용해 추론을 가속합니다.


기술 내재화와 TIme To Market 무엇을 선택할 것인가?


NVIDIA의 풀스택을 위와 같이 활용하면 초거대 언어 모델 훈련, 최적화, 추론 작업을 더 빠르게 실행할 수 있습니다. 국내외 유명 기업이 생성형 AI 시대(Generative AI)시대의 패권 경쟁에 뛰어 들기 위해 NVIDIA의 풀스택을 이용하는 이유입니다. 기술 내재화와 시장 진출 시간 단축(Time to Market)! 선택의 문제입니다. 조직의 비즈니스 우선순위나 내부 역량을 고려해 바른 선택을 하는 지혜가 필요한 시기가 된 것 같네요.






조회수 16회댓글 0개
bottom of page