Chang Sun Park
- 2020년 4월 24일
- 2분 분량

GPU 클러스터 관리의 어려움을 한 방에 해결하는 GPU on Demand

GPU 자원은 무한정 늘려 가기에 너무 비용이 많이 듭니다. 마른 걸레를 쥐어짜듯 최대한 자원 효율성을 높여야 하는 이유입니다. 하지만 아직 많은 조직이 GPU 자원을 효율적으로 관리하지 못하고 있습니다. 다음 그림을 보시죠. 현재 우리 조직은 어떻게 GPU 자원을 활용하고 있다고 보시나요? 데이터 과학자, 개발자, 현업 부서가 각각 알아서 전용 리소스를 사용하나요? 아니면 왼쪽과 같이 거대 클러스터를 구성해 효율적으로 자원을 공유하나요?

>> 전용 노드와 클러스터 구성 각각의 장단점은?

위 두 방식 중 어느 한 쪽일 수도 있을 것이고, 두 환경이 혼재되어 있을 수도 있습니다. 기업의 IT 환경은 복잡하죠. 그러다 보니 A or B 식이 아니라 여러 환경이 혼재된 경우가 아마 더 많을 것입니다. 위 두 방식은 좋고 나쁨의 문제에서 볼 대상이 아닙니다. 각각의 장점과 단점이 분명합니다. 따라서 우리 회사의 예산, 운영 방향에 맞춰 최선의 길을 찾는 것이 중요합니다. 전용 노드를 운영할 경우 가장 큰 장점은 사용자 불만이 적다는 것입니다. 아무래도 자원을 독점하는 구조이다 보니 사용자에게는 이게 더 좋아 보일 수 있습니다. 단점은 자원 낭비의 우려가 있다는 것입니다. 아무리 열심히 사용한다 해도 독점 장비는 사용하지 않는 시간이 생기기 마련입니다. 전체 자원을 풀로 쓰지 않는 경우도 많고요. 이 외에 유지 보수가 어렵다는 것도 단점으로 지적됩니다. 클러스터 구성의 장점은 자원 효율성을 극대화할 수 있다는 것과 관리와 확장이 용이하다는 것입니다. 유지 보수 역시 중앙 집중화가 가능합니다. 단점이라면 아무래도 자원을 공유하는 것이다 보니 자원 사용에 대한 경쟁이 있을 수 있습니다.

>> 우리 회사는 GPU 자원을 어떻게 구성해 쓰고 있나?

위 두 방식은 간단한 비교를 위한 예시일 뿐입니다. 실제 기업 현장에서 GPU 자원이 배치 및 사용은 다양한 유즈 케이스로 구분해 볼 수 있습니다. 온 프레미스 환경에서 여러 사용자가 자원을 공유하는 것, 여러 사용자가 단일 노드를 이용하는 것, 하이브리드 방식으로 GPU 자원을 이용하는 것, IoT와 엣지 컴퓨팅을 고려한 자원 배치, 프로덕션 환경을 위한 인퍼런싱 환경 등 여러 가지를 생각해 볼 수 있습니다. 따라서 자원 활용 최적화 방안은 우리 회사의 GPU 활용 유즈 케이스를 고려해 최선의 길을 찾는 것이 바람직합니다.

>> GPU on Demand

위 유즈 유즈케이스 모두에서 고르게 GPU 자원 효율을 높이는 방법이 있습니다. 바로 'GPU on Demand' 체계를 구축하는 것입니다. GPU on Demand는 단순히 자원 효율 극대화를 넘어 모델 개발, 배포, 트레이닝, 프로덕션 환경에서의 인퍼런싱 워크플로우를 간소화하는 데까지 효과를 끼칩니다. 운영자는 마치 단일 인프라와 플랫폼을 바라보듯 관리할 수 있습니다. 데이터 과학자, 개발자, 현업 부서 사용자는 필요한 때 필요한 자원을 자유롭게 이용할 수 있는 나만의 환경을 사용하는 듯한 경험을 하게 됩니다. 이를 다른 쪽에서 유행하는 말로 하면 DevOps의 기반이라 할 수 있습니다. 데이터 과학자와 개발자가 인프라 관리자에게 모든 것을 의존하는 것이 아니라 자율적으로 자원 이용하는 그런 환경의 기틀이 바로 GPU on Demand입니다. 인프라 관리자는 더 중요한 일에 집중할 수 있습니다. 사용자 지원에 대부분의 일정을 할애하는 것이 아니라 인프라 모니터링, 트러블슈팅, 성능 최적화, 보안 강화 등에 집중할 수 있다는 소리죠. GPU on Demand 기반을 갖춘 다음 기업은 더 큰 목표인 AI-as-a-Service 환경으로 진화해 나아갈 수 있습니다. 이 내용은 별도의 포스팅으로 소개하겠습니다. #GPU_on_Demand #GPU #자원_최적화 #DevOps #GPU_클러스터 #인프라_운영 #인프라_관리

GPU 클러스터 관리의 어려움을 한 방에 해결하는 GPU on Demand

최근 게시물