AI 워크프로우는 간결할수록 좋습니다. 이런 이유로 다양한 도구를 통해 AI 워크플로우 간소화에 나선 곳이 많죠. 이번 포스팅에서는 NetApp Data Science Toolkit을 통해 어떻게 AI 워크플로우를 더 빠르고 효율적으로 처리할 수 있는지 알아보겠습니다. 참고로 본 포스팅은 넷앱 기술 마케팅 엔지니어인 마이크 오글스비(Mike Oglesby)의 글을 참조해 중요 내용만 요약한 것입니다. 원문은 넷앱 블로그를 방문 바랍니다.
NetApp Data Science Toolkit은 데이터 과학자와 데이터 엔지니어를 위해 설계한 도구로 사용하기 쉬운 직관적인 인터페이스를 제공합니다. 이외에도 다른 도구와 차별점으로 눈에 들어오는 것이 하나 있는데요. 바로 데이터 관리 기능입니다. NetApp이 만든 도구니 당연한가요?
이 도구를 사용하면 데이터 과학자와 데이터 엔지니어는 몇 초 만에 데이터 볼륨을 프로비져닝 및 삭제할 수 있습니다. 또한, 스토리지 관리자에게 요청하지 않아도 각종 데이터 관리 및 보호 관련 고급 기능에도 접근할 수 있습니다. 조금만 공부하면 데이터 과학자와 데이터 엔지니어는 정말 원하는 데로 데이터를 다룰 수 있게 됩니다.
AI 워크플로우 가속
NetApp Data Science Toolkit의 강력함을 예를 통해 알아보겠습니다. 데이터 과학자는 현재 사용 중인 볼륨에 테라바이트 또는 페타바이트 크기의 데이터가 포함되어 있어도 즉시 복사본을 생성할 수 있습니다. 이게 뜻하는 바는 데이터 과학자가 데이터 관련 작업의 자유를 얻게 되는 것입니다. 원래 데이터 세트(Gold Source)은 그대로 유지하면서 형식을 다시 지정하거나, 정규화하거나, 필요에 맞게 조작할 수 있는 복사본을 빠르게 생성해 원하는 작업을 할 수 있어 가능한 일이죠. 이게 간단해 보여도 스토리지의 복제 기능을 이용하는 나름 인프라 작업입니다. 스토리지 관리자에게 요청하면 며칠 또는 몇 주가 걸리는 일인데, NetApp Data Science Toolkit을 이용하면 데이터 과학자가 자신의 작업 환경에서 몇 초 만에 복제본을 생성할 수 있습니다.
고급 스토리지 기능은 규정 준수에도 도움이 됩니다. 모델 추적성(traceability) 보장이 필요한 프로젝트라면 NetApp Snapshot 기술을 이용해 읽기 전용 복사본을 만들면 됩니다. 스냅샷을 뜨는 것이므로 실제 스토리지 공간을 많이 차지 않아 부담이 없습니다. 스냅샷으로 모델 추적성을 위한 읽기 전용 복사본을 만드는 방식은 복잡한 일을 매우 간단히 만다는 것의 좋은 예가 아닐까 싶네요.
AI Control Plane과 무엇이 다른가?
여기까지 읽으면 아마 NetApp Data Science Toolkit과 AI Control Plane의 관계 또는 차이가 궁금해질 것입니다. AI Control Plane은 오픈 소스 기술을 기반으로 한 풀스택 MLOps 도구입니다. 이 도구의 편의성을 높이는 것이 바로 NetApp Data Science Toolkit입니다. 데이터 과학자는 AI Control Plane 환경에서 Jupyter 노트북이나 JupyterLab을 이용해 모델 개발, 배포, 훈련, 추론 등의 작업을 합니다. 여기에 NetApp Data Science Toolkit을 하나 더 하면 데이터 볼륨 프로비져닝과 삭제 그리고 복제나 스냅샷 같은 관리 기능을 파이썬 코드 한 줄로 Jupyter 환경에서 할 수 있는 편의성이 더해집니다.
물론 NetApp Data Science Toolkit은 단독으로 써도 유용합니다. 보통 조직 규모가 크지 않아 MLOps 플랫폼 없이도 작업이 가능한 경우 NetApp Data Science Toolkit만 사용해도 데이터 파이프라인 관리가 한결 수월해집니다.
참고로 NetApp Data Science Toolkit에 대한 더 자세한 내용은 깃허브 페이지를 참조 바랍니다.
コメント