top of page

GPU 가속으로 더 강력해진 XGBoost ~ Spark 3.0을 위한 GPU 가속 소프트웨어 스택

XGBoost, 매우 유명한 그라디언트 부스팅 라이브러리죠. XGboost를 이용해 학습과 분류를 하는 데이터 과학자와 AI 개발자들이 반길 소식 하나 전합니다. NVIDIA는 지난 6월 XGBoost4J-Spark를 공개했습니다. 아파치 스파크 노드에서 XGBoost 라이브러리를 이용해 트레이닝과 인퍼런싱을 더 빠르고 효율적으로 할 수 있도록 돕기 위해 만든 것인데요, 10월 한층 더 개선된 모습으로 돌아왔습니다.

NVIDIA가 벤치마크한 결과를 공개했는데요, 다음 표를 보시죠. 온 프레미스 환경의 스파크 클러스터와 AWS 클라우드 환경에서 XGBoost4j를 사용한 예입니다. 먼저 온 프레미스 환경에서 최신 XGBoost4j 릴리즈를 적용했을 때 트레이닝 시간과 관련 비용의 차이를 보여주는 벤치마크 결과를 보시죠.


음 표는 AWS 환경에서 실행한 벤치마크 결과입니다.




이런 차이를 만들어 낸 이유는 최신 XGBoost4j 릴리즈의 개선 사항 때문입니다. 이를 정리하면 인메모리 데이터 처리를 더 역동적으로 하게 되었고, GPU 메모리 이용 시 사이즈 제한이 풀려 최대 5배 이상 큰 데이터를 올려 트레이닝을 할 수 있게 되었고, 디버깅 편의를 높이기 위해 로그 관리 기능이 강화되었습니다. 이 밖에도 파이썬을 주로 쓰는 데이터 과학자와 AI 개발자를 위해 PySpark XGBoost API가 추가된 것과 ORC 인풋 데이터 형식 지원 등의 개선도 있었습니다.

NVIDIA는 CPU/GPU 클러스터 환경에서 빅 데이터와 AI 워크로드를 더 강력하게 처리할 수 있도록 Spark 관련해 다음과 같은 GPU 가속을 위한 스택 지원을 강화할 방침입니다. 이중 하나가 이번에 소개한 XGBoost도 보이네요. 참고로 XGBoost 앱 개발과 온프레미스 환경 배포 또는 공용 클라우드 배포 관련 상세 정보는 다음 깃허브 링크를 참조 바랍니다.


조회수 342회댓글 0개
bottom of page