Chang Sun Park
- 2020년 7월 1일
- 1분 분량

GPU 가속 극대화 - Apache SPARK 3.0 & RAPIDS 가속기

아파치 스파크(Apache Spark)은 빅 데이터 시대를 상징하는 데이터 처리 엔진 중 하나입니다. 아파치 스파크 관련해 가장 큰 관심사는 비용과 성능입니다. 더 적은 비용으로 더 많은 작업을 성능 걱정 없이 처리할 수 있다면? 아파치 스파크 인프라 구축과 관리에 대한 기업의 한결같은 고민입니다. 아파치 스파크 운영 인프라는 나날이 커져 가고 있습니다. 이 추세는 당분간 이어질 전망입니다. 그렇자면 아파치 스파크의 가성비를 극대화하려면 무엇이 필요할까요? 네, GPU에 답이 있습니다.

GPU는 데이터 과학자가 컴퓨팅 인프라를 이용하는 방식을 바꾸고 있습니다. CPU 중심적인 방식은 성능으로 빅 데이터 처리에 접근하면 늘 성능 걱정을 합니다. 빅 데이터 플랫폼은 대규모 분산 컴퓨팅 아키텍처로 경제성, 확장성 등의 이점을 챙깁니다. 대규모 병렬 컴퓨팅 환경을 CPU로만 꾸리면 비용 부담이 상당히 커집니다. 여기에 GPU를 더하면 대규모 병렬 처리의 효율이 크게 개선되어 성능 걱정 없이 가성비 높은 빅 데이터 플랫폼의 이점을 누릴 수 있습니다.

NVIDIA은 스팍 엔진을 더 효율적으로 운영할 수 있도록 RAPIDS 가속기와 긴밀한 통합을 지원합니다. 통합의 혜택은 스파크 3.0을 통해 만끽할 수 있습니다. 스파크 2.x 버전의 경우 데이터 수집, 가공, 모델 트레이닝 파이프라인에 '가속'의 개념이 없었습니다. 그러던 것이 스파크 3.0 버전부터는 데이터 준비와 모델 트레이닝 전 과정에 걸쳐 '가속'의 개념이 더해집니다.

RAPIDS 가속기는 스파크 SQL과 DataFrame 작업 성능을 극대화합니다. 또한, UCX, RDMA, NCCL 등이 포함된 GPU 가속 라이브러리 덕에 스파크 프로세스 간 데이터 전송도 최적화됩니다. 또한, 필요에 따라 GPU 장착 서버로 데이터 처리 워크로드를 직접 배치할 수 있습니다. 이런 이점을 통해 기업은 스파크 운영 인프라 비용을 절감하는 가운데 최고 수준의 성능을 데이터 과학자와 개발자에게 제공할 수 있는 효과를 거둘 수 있습니다.

스파크 환경에서 GPU 가속 최대한 활용하는 방법은 NVIDIA 백서를 통해 자세히 알아볼 수 있습니다.

#NVIDIA #Spark #Spark_3 #RAPIDS #Spark_Rapids #빅데이터

GPU 가속 극대화 - Apache SPARK 3.0 & RAPIDS 가속기

최근 게시물