최근 NVIDIA가 RAPIDS를 공개했죠. RAPIDS는 데이터 과학자가 모델 트레이닝을 가속할 수 있도록 돕는 오픈 소스 기반 라이브러리입니다. RAPIDS는 첨단 분석과 데이터 과학 프로젝트에서 데이터 준비와 처리 과정을 간소화하는 데 초점을 두고 있습니다. RAPIDS는 기술적으로 Apache Arrow에 기반을 합니다. 이를 통해 GPU 메모리 상에서 첨단 분석과 데이터 과학 관련 데이터 파이프라인을 처리합니다. 데이터 준비, 트레이닝, 시각화 과정을 모두(end-to-end) 가속한다고 보면 됩니다.
그렇다면 RAPIDS를 적용하면 얼마나 더 작업이 빨라질까요? 며칠 걸리던 트레이닝이 몇 시간이면 충분할 정도입니다. 아례 표를 보시면 더 극적으로 느껴질 것입니다.
이렇게 훌륭한 RAPIDS를 사용하려면? 현재 사용 중인 환경에 배포하고 운영해야 하는 부담이 따릅니다. 이런 고민을 Kinetica가 해결했습니다. Kinetica에 RAPIDS을 UDF를 활용해 간편하게 연계할 수 있어, 복잡하게 데이터를 읽고 쓰는 구조로 파이프라인을 짜지 않아도 됩니다. 모델을 가져와 Kinetica에서 트레이닝하면 됩니다. Kinetica 엔진과 RAPIDS는 NVIDIA GPU Cloud의 카탈로그에서 다운로드할 수 있습니다. 그리고 Kinetic와 RAPIDS 통합 코드는 깃허브에서 찾아볼 수 있습니다.
참고로 NVIDIA RAPIDS 구현과 데모가 필요할 경우 uDNA 팀에 문의를 통해 안내를 받을 수 있습니다. Kinetica 환경에서 RAPIDS를 연계하는 것에 대한 데모, PoC, 구축, 기술 지원 모두에 대한 안내가 가능하오니 참조 부탁드립니다.
Comments