NetApp Data Science Toolkit 사용 시나리오


MLOps 플랫폼이 그렇다고 만능은 아닙니다. 쓰다 보면 뭔가 좀 더 있었으면 하는 생각이 듭니다. 대표적인 것이 데이터 관리 및 모델 추적성 보장 관련 기능입니다. 아마 공감하는 분들이 많을 것입니다. MLOps는 모델 개발, 배포, 훈련을 위한 풍부한 도구 세트를 제공합니다. 이들 도구는 워크플로우 가속에 초점이 맞추어져 있습니다. 데이터 관리 작업 자체를 줄여주지는 않습니다. 데이터 관리는 스토리지 작업까지 내려가야 하다 보니 데이터 과학자, 데이터 엔지니어는 결국 스토리지 관리자에게 의존해야 합니다.

이런 불편을 해소하는 도구가 바로 NetApp Data Science Toolkit입니다. 최신 버전인 1.2부터 쿠버네티스용 NetApp Data Science Toolkit도 사용할 수 있는데요, 이를 기준으로 이 도구가 어떻게 쓰이는지 사용 시나리오를 살펴보겠습니다. 참고로 본 포스팅은 넷앱 기술 마케팅 엔지니어인 마이크 오글스비(Mike Oglesby)의 글을 참조해 시나리오 형태로 재구성한 것입니다. 원문은 넷앱 블로그를 방문 바랍니다.


JupyterLab 작업 공간 복제


데이터 과학자 A씨는 웹 기반 대화형 개발 환경인 JupyterLab을 이용해 작업을 합니다. A씨는 모델 훈련에 필요한 데이터 세트를 자신의 작업 공간에 직접 저장하고 관리하는 방법을 찾다 NetApp Data Science Toolkit을 발견합니다. 이를 이용해 보니 JupyterLab 작업 공간을 몇 초 만에 프로비져닝할 수 있고, 이 작업 공간에 테라바이트 또는 페타바이트 용량의 데이터를 직접 저장할 수 있음을 알게 되었습니다. 이로써 A씨는 작업 공간과 데이터 볼륨을 별도로 관리하던 방식에서 벗어나게 되었습니다. MLOps 엔지니어와 스토리지 관리자에게 일일이 도움을 요청할 일 없이 쿠버네티스 기반 작업 환경과 스토리지에 저장된 데이터를 JupyterLab환경에서 편히 접근할 수 있게 된 것이죠.


A씨는 모델 최적화를 위한 실험을 진행하기 위해 같은 데이터 세트와 연결된 작업 환경을 복제하고 싶었습니다. 페타바이트 규모의 데이터와 노트북이 포함된 작업 환경을 복제하는 작업 역시 A씨는 NetApp Data Science Toolkit을 활용합니다. A씨는 단 몇 초 만에 JupyterLab 작업 공간의 복제본을 생성합니다. 이번에도 스토리지 관리자의 도움 없이 원하는 일을 해냈습니다. 몇 주 걸릴 일을 눈앞에서 바로 처리한 덕에 시간을 벌었습니다. A씨는 본인이 쿠버네티스 환경을 위한 복제 기술인 NetApp Trident를 활용했다는 것을 모릅니다. 그저 익숙한 환경에서 작업 환경 복제본을 하나 만들었을 뿐입니다. 굳이 데이터 과학자가 쿠버네티스용 NetApp의 동적 스토리지 오케스트레이터를 자세히 알아야 할 필요가 없죠.

모델 추적


A씨가 진행 중인 프로젝트는 규정 준수가 필요합니다. 따라서 A씨는 모델 추적성 보장을 위해 또 한번 NetApp Data Science Toolkit을 활용합니다. 추적성 보장은 꽤 까다로운 일입니다. 모델이 어떻게 훈련되었는지, 어떤 맥락에서 모델이 사용되었는지 등에 대한 기록을 확보해야 합니다. 시간을 거슬러 올라가 모델이 있었던 다양한 시점에 수행한 작업 관련 기록을 어떻게 하면 효과적으로 확보할 수 있을까? A씨는 Trident 및 NetApp Snapshot 기술을 활용해 데이터 세트가 포함된 작업 공간의 스냅샷을 제공하는 NetApp Data Science Toolkit의 기능을 활용합니다. 추적성 확보를 복잡하고 어렵게 생각하지 않고 스냅샷이란 간편한 방법으로 접근한 것이죠. 이 역시 A씨는 스토리지 스냅샷 기능을 이해할 필요가 없습니다. JupyterLab에서 간단히 복사본을 만들어 놓는다고 생각하고 일을 하면 됩니다. 스토리지 관리자에게 뭔가 요청할 것은? 이번에도 없습니다.


이쯤 되면 한번 써보고 싶은 생각이 드실 텐데요, 일단 다음 데모를 보면 아마 깃허브 페이지에 가서 바로 다운을 받게 될 것입니다. 그만큼 유용한 도구입니다.


#MLOps #NetApp #NetApp_Data_Science_Toolkit #AI_Control_Plane #JupyterLab



조회 14회