데이터 과학은 모든 기업의 일순위 전략적 투자 대상입니다. AI, 빅 데이터 등 모든 것의 출발점이자 초석이 바로 데이터 과학입니다. 많은 기업이 데이터 중심 경영을 위해 데이터 과학 인프라와 플랫폼 구축을 하고 있습니다. 이중 상당수는 기술과 운영 내재화에 대한 피로감을 호소하고 있습니다. 기술의 생명 주기가 나날이 빨라지면서 내재화가 나날이 어려워지고 있기 때문입니다. 기술 발전 추이에 영향을 덜 받는 데이터 과학을 위한 인프라와 플랫폼을 구축의 핵심은 ‘간소화’입니다. 데이터 파이프라인을 간소화하고, 데이터 처리를 위한 플랫폼 환경을 간소화하고, 하드웨어 자원 역시 고성능을 바탕으로 가능한 복잡하지 않게 구축과 확장을 할 수 있어야 합니다.  

Data Science 전용 인프라

데이터 과학자와 AI 서비스/애플리케이션 개발자에게 있어 데이터를 다루는 일은 매우 고된 작업입니다. 데이터 수집하고, 이를 다른 데이터와 조합해 원하는 데이터 세트를 만들고, 모델을 개발해 트레이닝하고, 모델 배포 후 인퍼런싱을 거듭하는 과정을 생각해 보십시오. 처음부터 끝까지 데이터 처리에서 자유로울 수 없습니다. 빅 데이터 플랫폼 측면에서 접근하려면 배워야 할 것도 많고, 관리해야 할 대상도 많습니다. 이런 이유로 최근에는 데이터 파이프라인을 최대한 간소화하는 것에 대한 관심이 커지고 있습니다. 데이터 과학자와 AI 서비스/애플리케이션 개발자가 본연의 업무에 더 집중하게 하려면 손도 많이 가고 시간도 오래 걸리는 데이터 처리에서 벗어나게 해주어야 하기 때문입니다. 데이터 파이프라인 간소화에 있어 가장 핵심적인 역할을 하는 것이 바로 GPU입니다. GPU를 장착한 AI 인프라 상에서는 이루어지는 데이터 처리 워크플로우는 CPU만 사용했을 때보다 최소 10배 이상 속도 차이가 납니다. 

​컴퓨트, 네트워크, 스토리지 최적화

그렇다면 AI와 빅 데이터 파이프라인을 가속하려면 인프라는 어떤 특성을 갖추어야 할까요? GPU 기반의 강력한 컴퓨트 노드가 우선 필요합니다. 다음으로 데이터 처리 과정에서 성능 병목 구간을 해소하기 위해 멜라녹스 NIC와 같이 네트워크 인터페이스 측면에서 RDMA(Remote direct memory access)를 지원해야 합니다. 다음으로 고려해야 할 것은 스토리지입니다. 대량의 데이터를 매우 빠른 속도로 처리하는 GPU 기반 AI 인프라에서 스토리지 역시 더 많은 읽기, 쓰기, 복제 등의 작업을 할 수 있어야 합니다. 따라서 NVMe, NVMe-oF(NVME over Fabric) 모두를 지원하는 GPUDirect 스토리지 기술이 필요합니다. 

Data Science 워크플로우 최적화 

NVIDIA가 제공하는 GPU 기반 AI 인프라와 소프트웨어 플랫폼은 데이터 과학자와 AI 개발자의 업무 생산성을 극대화합니다. 사진 최적화된 환경을 제공하여 데이터 처리부터 모델 배포까지 매끄럽게 작업이 이어집니다. 

주소: 서울특별시 중구 퇴계로 286 쌍림빌딩 8/9층 (주)유클릭 AI 사업본부

전화: 02-6320-0121

© 2030 by uDNA & Uclick

  • 블랙 블로거 아이콘