NetApp Data Science Toolkit 사용 시나리오


MLOps 플랫폼이 그렇다고 만능은 아닙니다. 쓰다 보면 뭔가 좀 더 있었으면 하는 생각이 듭니다. 대표적인 것이 데이터 관리 및 모델 추적성 보장 관련 기능입니다. 아마 공감하는 분들이 많을 것입니다. MLOps는 모델 개발, 배포, 훈련을 위한 풍부한 도구 세트를 제공합니다. 이들 도구는 워크플로우 가속에 초점이 맞추어져 있습니다. 데이터 관리 작업 자체를 줄여주지는 않습니다. 데이터 관리는 스토리지 작업까지 내려가야 하다 보니 데이터 과학자, 데이터 엔지니어는 결국 스토리지 관리자에게 의존해야 합니다.

이런 불편을 해소하는 도구가 바로 NetApp Data Science Toolkit입니다. 최신 버전인 1.2부터 쿠버네티스용 NetApp Data Science Toolkit도 사용할 수 있는데요, 이를 기준으로 이 도구가 어떻게 쓰이는지 사용 시나리오를 살펴보겠습니다. 참고로 본 포스팅은 넷앱 기술 마케팅 엔지니어인 마이크 오글스비(Mike Oglesby)의 글을 참조해 시나리오 형태로 재구성한 것입니다. 원문은 넷앱 블로그를 방문 바랍니다.


JupyterLab 작업 공간 복제


데이터 과학자 A씨는 웹 기반 대화형 개발 환경인 JupyterLab을 이용해 작업을 합니다. A씨는 모델 훈련에 필요한 데이터 세트를 자신의 작업 공간에 직접 저장하고 관리하는 방법을 찾다 NetApp Data Science Toolkit을 발견합니다. 이를 이용해 보니 JupyterLab 작업 공간을 몇 초 만에 프로비져닝할 수 있고, 이 작업 공간에 테라바이트 또는 페타바이트 용량의 데이터를 직접 저장할 수 있음을 알게 되었습니다. 이로써 A씨는 작업 공간과 데이터 볼륨을 별도로 관리하던 방식에서 벗어나게 되었습니다. MLOps 엔지니어와 스토리지 관리자에게 일일이 도움을 요청할 일 없이 쿠버네티스 기반 작업 환경과 스토리지에 저장된 데이터를 JupyterLab환경에서 편히 접근할 수 있게 된 것이죠.