검색 결과

"" 검색 결과: 157개의 아이템

Mellanox UFM - 인피니밴드 기반 데이터센터 네트워크 인프라 관리의 정석
NVIDIA Mellanox UFM(Unified Fabric Manger)에 새로운 라인업이 보강되었습니다. 그 이름은 바로 UFM Cyber-AI입니다. 이 어플라이언스는 매우 강력한 관리 서버입니다. 인피니밴드 기반 데이터센터 네트워크 관리, 모니터링, 최적화, 보안 등을 단일 콘솔에서 중앙집중적으로 할 수 있습니다. Mellanox UFM은 세 가지 버전이 있습니다. UFM Telemetry는 네트워크에서 나오는 다양한 정보를 실시간으로 수집하는 데 초점을 맞춘 관리 서버입니다. 네트워크 구성을 원격으로 확인하고 관리하는 기능도 제공합니다. 다음으로 UFM Enterpirse는 기업이 요구하는 수준의 강력한 네트워크 모니터링 기능과 관리 기능을 갖춘 버전입니다. 최근 발표한 UFM Cyber AI는 네트워크 텔레메트리 정보를 수집하고 인공 지능 기술을 활용해 엔터프라이즈 네트워크 환경의 보안을 강화하고, 성능을 최적화하고, 가용성을 극대화하기 위한 예측 기반의 선제적 유지 보수를 가능하게 하는 가장 진보된 방식의 관리 서버입니다. UFM Cyber AI 같은 관리 서버가 왜 필요할까요? 네트워크 관리에 있어 보안 강화는 매우 중요합니다. 네트워크 장애나 해킹으로 인한 다운타임 발생은 곧 비용 손실로 이어집니다. 문제는 인피니밴드 기반 네트워크 환경을 노린 공격이 늘고 있다는 것입니다. GPU 기반 서버를 대거 투입하고 인피니밴드 기술로 초고속 네트워킹 기반을 갖춘 AI 데이터센터나 HPC 환경을 노린 공격 그룹의 손길을 늘 의식해야 하는 이유입니다. UFM Cyber AI는 매우 다양한 관리 기능을 제공합니다. 모든 네트워크 텔레메트리 정보는 가독성 높은 대시보드를 통해 확인할 수 있습니다. 세부 메뉴로 들어가면 네트워크 패브릭에 발생한 문제, 미래 발생 가능한 장애, 네트워크 장비 펌웨어 업그레이드, 네트워크 자산 관리, 네트워크 혼잡 제어, 네트워크 성능 모니터링 등에 대한 세부 내용을 확인할 수 있습니다. 더불어 수작업으로 하던 단순 반복적인 관리 작업은 워크플로우를 정의해 자동화할 수도 있습니다. 더 자세한 내용은 소개 영상을 참조 바랍니다. UFM Cyber AI는 UFM 버전 중 처음으로 인공 지능을 활용하여 잠재적인 장애를 예측하고, 이에 대한 선제적 대응을 합니다. 이런 특징으로 인피니밴드 기반 네트워크 인프라 관리에 있어 운영 비용과 다운타임 최소화에 있어 그 어떤 관리 솔루션보다 탁월한 효과를 제공합니다. #Mellanox#인피니밴드#네트워트_관리#네트워크_텔레메트리#네트워크_모니터링#네트워크_보안#관리_서버#인피니밴드_네트워크
AI 인프라와 플랫폼 구축 시 고려 사항! 시간과 비용을 아끼고 시행착오를 줄이는 방법은?
AI 인프라와 플랫폼 구축을 할 때 많은 기업이 비슷한 고민을 합니다. 보통 시작은 클라우드와 온프레미스에 대한 고민에서 출발합니다. 사실 정답은 없습니다. 필요에 맞는 선택이 있을 뿐입니다. 보통 클라우드는 필요할 때 당장 쓰기 편합니다. 하지만 제약이 있습니다. 데이터 세트가 크거나, 빈번하게 트레이닝을 해야 하는 조건의 경우 경제성이 떨어집니다. 이런 이유로 AI 프로젝트를 다양하게 전개해 나아가는 기업들은 온프레미스에 인프라와 플랫폼을 갖추는 것을 선호합니다. 그리고 순간적인 자원 확장이 필요하거나, 대내외 협업이 필요할 때 클라우드를 이용합니다. 스타트업의 경우 클라우드를 메인으로 쓰는 가운데 빈번한 트레이닝 등의 작업은 사내에 NVIDIA DGX 워크스테이션 같은 전용 장비를 두고 사용하는 조합을 선택하기도 합니다. AI 인프라/플랫폼 도입을 위한 3가지 고려 사항 - 개발, 성능, TCO 본 포스팅은 온프레미스 환경에 AI 인프라, 플랫폼 구축 시 고려해야 할 주요 사항을 소개합니다. 보통 AI 관련 투자를 할 때 개발 생산성, 확장성과 성능 그리고 TCO를 고려합니다. 데이터 과학자, AI 개발자, 현업 부서 등 여러 AI 프로젝트 추진 추체들이 더 생산적이고 효율적으로 작업을 이어갈 수 있게 하려면 어떤 조건을 충족해야 하나? GPU 자원을 효율적으로 배분해 사용자들이 성능 부족을 호소하지 않게 하려면 무엇이 필요할까? AI 인프라와 플랫폼 구축과 운영 비용 절감 포인트는 무엇인가? 이 세 질문에 대한 답을 찾는 것이 필요합니다. AI 인프라와 플랫폼 구축에 레퍼런스 아키텍처를 선택하는 이유 AI 인프라와 플랫폼은 여러 요소로 구성됩니다. GPU, CPU, 네트워크, 스토리지 등 하드웨어부터 시작해 운영 체제, 머신 러닝과 딥러닝 관련 소프트웨어 스택, 데이터 과학자와 개발자가 사용하는 각종 개발 환경과 도구까지 꽤 많은 것들이 포함됩니다. 이는 다른 측면에서 보면 직접 AI 인프라와 플랫폼을 구축할 경우 최적화를 위해 최적의 조합을 찾기 위해 무수히 많은 테스트를 해봐야 함을 의미합니다. 이런 시행착오를 줄이기 위해 나온 것이 바로 레퍼런스 아키텍처입니다. 최적의 조합에 대한 가이드는 NVIDIA 그리고 NVIDIA와 협력 관계를 맺고 있는 하드웨어 벤더가 제공을 합니다. 이들이 제공하는 레퍼런스 아키텍처를 따르면 인프라와 플랫폼 구축과 운영 시간과 비용을 절감할 수 있습니다. DIY로 구축하는 것과 레퍼런스 아키텍처를 따를 때의 극적인 차이 시간과 비용 절감, 다소 추상적으로 들릴 수 있을 것입니다. 하지만 구체적으로 파고 들어가면 숫자로 그 효과를 체감할 수 있습니다. 자료 조사와 평가 후 소프트웨어 엔지니어링, 플랫폼 설계, 하드웨어와 소프트웨어 통합, 소프트웨어 최적화 등의 과정을 거치는 기간은 보통 3개월이 걸립니다. 하드웨어와 소프트웨어가 사전에 최적화되어 제공되는 NVIDIA DGX 서버를 도입하면 DIY 스타일로 직접 구축하는 것보다 내부에서 해야 할 일이 확실히 줄어듭니다. 아래 그림과 같이 사전에 해야 할 8가지 사전 작업 중 6개를 하지 않아도 됩니다. 이를 시간의 흐름으로 다시 정리하면 다음과 같습니다. 3개월 걸릴 일을 1주일로 앞당기는 결과가 나오죠. 이상으로 간단히 레퍼런스 아키텍처 도입과 DIY 구축의 차이를 살펴보았습니다. 더 자세한 사항은 유클릭으로 문의 바랍니다. #AI#NVIDIA#GPU#레퍼런스_아키텍처#클라우드_GPU#온프레미스_AI인프라#AI인프라#DIY구축#네트워크#스토리지
Kinetica Cloud 런칭 - GPU 가속 기반 데이터베이스를 온프레미스, 하이브리드, 퍼블릭 클라우드 모든 곳에서 편하게 활용
Kinetica의 GPU 가속 기반 인메모리 데이터베이스를 토대로 하는 Active Analytics Plaform을 이제 클라우드에서도 편하게 이용할 수 있습니다. 서비스 이름은 바로 Kinetica Cloud입니다. Kinetica Cloud는 Kinetica Active Analytics Plaform이 제공하는 모든 기능을 지원합니다. 따라서 온프레미스에 구축한 Kientice 플랫폼과의 연계성과 호환성이 완벽하게 보장됩니다. 또한, 필요에 따라 하이브리드 구성을 하여 AI, 첨단 분석 등 Kinetica 플랫폼을 기반으로 하는 워크로드가 요구하는 확장을 보장하는 것도 더 편리해졌습니다. Kinetica Cloud는 현재 마이크로소프트 애저와 오라클 클라우드에서 바로 사용이 가능합니다. Kinetica는 빠른 시일 내에 AWS, 구글 클라우드 등 유명 클라우드에서도 Kientice Cloud를 사용할 수 있게 할 계획입니다. 이에 따라 기업들은 Kinetica Active Analytics Plaform과 Kinetica Cloud를 이용해 하이브리드 클라우드 전략을 바로 추진하거나, 하드웨어 기반 구축과 운영 부담 없이 공용 클라우드에서 바로 GPU 가속 기반 인메모리 데이터베이스의 강력한 성능과 기능을 사용할 수 있습니다. San Francisco Estuary Institute가 Kinetica Cloud를 사용하는 이유 Kinetica Cloud를 사용하는 사례 중 하나인 San Francisco Estuary Insititue(이하 SFEI)의 예를 소개하겠습니다. 이 연구소는 자연 생태계 관련 연구와 조사를 하는 기관입니다. SFEI는 해양과 습지에 버려지는 쓰레기 관련 모니터링 시스템에 머신 러닝 알고리즘 적용을 고려하고 있었습니다. 관련해 데이터 세트로 고해상도 이미지를 다루어야 하고 위치 기반 인텔리전스를 적용하는 등 고성능 컴퓨팅 환경이 필요했습니다. 실시간으로 수집되는 고해상도 현장 사진을 능동적으로 처리하고 분석할 수 있는 방법을 찾던 SFEI는 오라클 클라우드 상에서 Kinetica Cloud를 이용하면 GPU 가속 기반 컴퓨팅이 제공하는 놀라운 성능을 간편하게 이용할 수 있다는 사실을 알게 되었습니다. 인프라를 구축해 관리하는 부담 없이 바로 캘리포이나 지역의 해양과 습지에 쌓이는 쓰레기를 모니터링하는데 있어 머신 러닝 알고리즘과 위치 기반 인텔리전스를 적용한 첨단 분석을 적용할 수 있다는 점에서 SFEI는 Kinetica Cloud가 최선이라 보았습니다. 이상으로 간단히 Kinetica Cloud 런칭 및 이를 이용하는 기관의 사례를 살펴보았습니다. 더 자세한 내용은 키네티카 페이지를 참조 바랍니다. #키네티카 #Kinetica #구글클라우드 #AWS_인메모리_DB #마이크로소프트_애저_인메모리_DB #오라클_클라우드_인메모리_DB #GPU_인메모리_데이터베이스 #Kinetica_Active_Analytics_Platform #하이브리드_클라우드_DB
물리학 관련 컴퓨터 기반 시뮬레이션을 슈퍼컴퓨터 도움 없이 가속하는 방법
컴퓨터 기반 시뮬레이션은 상당한 컴퓨팅 파워를 요구합니다. 특히 천체 물리학, 기후 과학, 에너지 물리학, 지질학 등의 분야에서 수행하는 시뮬레이션은 슈퍼컴퓨터 수준의 성능이 필요합니다. 성능이 중요한 이유는? 충분한 자원이 없을 경우 시뮬레이션 시간이 상당히 길어지기 때문입니다. 그렇다고 연구원들이 필요로 하는 성능을 충분히 갖추는 것은 쉬운 일이 아니죠. 모든 대학, 연구소가 슈퍼컴퓨터를 운영할 수는 없으니까요. 관련해 좋은 소식이 하나 있습니다. 무리해서 컴퓨팅 성능을 확보하지 않고도 충분히 시뮬레이션 시간을 앞당길 수 있는 방법이 있습니다. AI 기반 에뮬레이터를 써보니 20억 배 가까이 시뮬레이션 속도 빨라져 최근 스탠퍼드 대학과 옥스퍼드 대학에서 시뮬레이션 시간을 수십억 배 줄일 수 있는 방법을 제시했습니다. 두 대학이 제시한 방법은 DENSE(Deep Emulator Network Search)라는 기술입니다. 이 기술은 이름을 보면 알 수 있듯이 딥러닝에 기반한 접근입니다. 이 기술을 개발한 이들은 스탠퍼드 대학의 컴퓨터 과학자인 멜로디 구안(Melody Guan)과 옥스퍼드 대학의 물리학자인 무함마드 카심(Muhammad Ksaim)입니다. 컴퓨터 전문가와 시뮬레이션에 밝은 물리학자의 콜라보로 만든 기술이 바로 DENSE라 보면 되겠네요. 이 두 전문가는 DENSE가 시뮬레이션 시간을 얼마나 앞당길 수 있는지 실험을 했습니다. 천제 물리학, 기후 과학, 생지 화학, 에너지 물리학, 융합 에너지, 지진학 등 10개의 케이스를 대상으로 DENSE를 적용했을 때와 그렇지 않을 때의 차이를 비교했습니다. 공정한 비교를 위해 아키텍처, 알고리즘, 파라미터 등을 같은 조건으로 10개의 케이스를 각각 비교했습니다. 이중 가장 좋은 차이를 보인 경후는 기후 모델 시뮬레이션이었습니다. CPU만 사용했을 때 1,150시간이 걸리던 기후 모델 시뮬레이션이 NVIDIA TITAN X GPU를 적용해 가속을 한 결과 20억 배 가까이 시뮬레이션 시간이 빨라졌습니다. 슈퍼컴퓨터 부럽지 않은 가속 성능 빨리 대충 돌린 것 아니야? 이런 생각을 할 수 있겠죠. 그래서 두 연구원은 천문학 시뮬레이션을 슈퍼컴퓨터에서 한 것과 GPU 기반 환경에서 DENSE를 기술로 가속을 했을 때를 비교했습니다. 결과는 보니 99.9% 이상 같았다고 하네요. 굳이 슈퍼컴퓨터를 쓰지 않아도 원하는 시뮬레이션 결과를 더 빨리 얻을 수 있다는 것이죠. 다음 예는 호주 화재로 인한 매연을 시뮬레이션한 화면입니다. DENSE 관련 자세한 내용은 논문을 참조 바랍니다. #유클릭 #시뮬레이션 #물리_시뮬레이션 #천문학_시뮬레이션 #기후_시뮬레이션 #에너지_시뮬레이션 #논문 #NVIDIA #NVIDIA_TITAN_X_GPU #GPU #GPU_가속 #딥러닝 #옥스퍼드대학 #스탠퍼드대학
갑작스러운 날씨 변화를 예측하는 딥러닝
매일 일기예보 잘 챙겨 보시죠? 외출하기 전에 오늘 날씨를 확인하고 나가죠. 일기예보에서 별 이야기 없었는데 갑작스러운 날씨 변화로 비가 온다거나, 우박이 쏟아지면 당황하게 되죠. 이 정도야 뭐 애교로 봐 줄 수 있지만 대형 돌풍, 주먹만 한 우박, 대형 파도와 같이 지역 사회에 큰 피해를 주는 갑작스러운 날씨 변화는 가볍게 볼 수 있는 그런 것이 아니죠. 일기예보가 놓친 급작스러운 날씨 변화를 미리 예측할 수 있다면? 당연한 이야기지만 피해를 크게 줄일 수 있습니다. 관련해 날씨 변화를 예측하는 딥러닝 모델에 대한 이야기를 준비해 보았습니다. 일기예보가 놓친 급격한 날씨 변동을 예측한다! 라이스 대학(Rice Univecity)의 한 엔지니어가 딥러닝 기반의 급격한 날씨 변화 예측 모델을 개발했습니다. 적중률이 85%나 된다고 하네요. 라이스 대학 연구원은 샌디에이고와 피츠버그 슈퍼 컴퓨팅 센터에서 운영하는 NVIDIA P100 GPU 기반의 Comet, Bridge 클러스터를 이용해 예측 모델을 돌려 보았다고 하네요. 기후 변화 예측 모델은 cuDNN 가속 기반 TensorFlow 프레임워크를 사용해 만들었습니다. 데이터 세트로 이용한 것은 1920년부터 2005년까지의 기상 기록 정보입니다. 라이스 대학 엔지니어는 갑자기 날씨가 변하기 전에 이를 예고하는 징후 패턴이 있을 것이라 생각해, 과거 기상 기록을 데이터 세트로 모델을 트레이닝한 것이죠. 즉, 날씨 예측을 패턴 인식 측면에서 접근한 것이고 이를 위해 CNN(Convolutional Neural Network)과 CapsNet(Capsule Neural Network)를 사용했다고 합니다. 날씨 관련 재해 조기 경보 용도로 딱 ~ 라이스 대학 연구원이 만든 날씨 변화 예측 모델은 재해로 이어질 수 있는 날씨 관련 이벤트가 발생하기 전에 조기 경보를 제공하는 데 유용해 보입니다. 기상청에서 일기예보 관련 조기 경보 용도로 유용하지 않을까 싶네요. 이 모델에 대한 상세 정보는 논문을 통해 확인 바랍니다. #유클릭 #일기예보 #기상청 #슈퍼컴퓨터 #날씨_조기경보 #재해_조기경보 #딥러닝
대다수 AI/ML 프로젝트가 파일럿 단계에서 프로덕션까지 살아남지 못하는 이유!
인공 지능이 중요한 것은 다 압니다. 그래서 기업들은 경쟁하듯이 관련 조직에 힘을 실어 주고 있습니다. 여러 아이디어가 나오고, 이들은 곧 파일럿 프로젝트로 이어집니다. 그런데 대부분은 아이디어가 파일럿 단계에서 사라지고 있습니다. Dimensional Research에서 227명의 데이터 과학자를 대상으로 설문 조사를 해보니, 응답자의 78%가 AI 프로젝트 중 78%가 프로덕션까지 이어지지 않는다고 답했습니다. 왜일까요? 프로덕션 환경까지 무사히 살아서 배포되는 모델이 생각보다 많지 않은 이유는 무엇일까요? AI/ML 프로젝트가 유산균처럼 프로덕션까지 살아남지 못하는 6가지 이유 현실 세계의 AI/ML 프로젝트는 유산균과 닮았습니다. 우리는 더 건강한 삶을 위해 요구르트, 영양제 등 다양한 형태로 유산균을 먹습니다. 그런데 이들 중 장까지 살아가는 유산균은 극소수라고 하죠. AI/ML 프로젝트도 마찬가지입니다. 기업은 건실한 성장을 지속하기 위해 AI/ML 관련 서비스를 고객에게 제공하려고 합니다. 그런데 대다수 AI/ML 프로젝트가 프로덕션 환경까지 살아서 가는 경우가 많지 않습니다. 유산균과 다를 바 없어 보이죠. 그 이유는 크게 6가지로 정리해 볼 수 있습니다. 1. 배포의 어려움 AI/ML 프로젝트를 테스트와 최적화를 거쳐 프로덕션 환경에 배포하는 것은 어려운 일입니다. 관련해 자원과 플랫폼 측면에서 확장성, 재연성, 보안성 등 따져봐야 할 것이 많습니다. 2. 따라가기 벅찬 새로운 툴의 등장 데이터 과학자에게 AI/ML 프로젝트는 과거 빅 데이터에 대한 아픈 추억을 떠올리게 합니다. 새로운 도구와 기술이 쏟아져 나오고, 뭔가 익숙해 질만하면 또 배워야 할 것이 등장하는 등 뭔가 쳇바퀴 속에 있는 듯한 그 느낌을 말이죠. AI/ML 분야의 경우 엄청난 속도로 도구와 플랫폼의 진화가 이루어지고 있습니다. 불과 얼마 전에 Wow ~ 소리를 듣던 도구도 어느 순간 옛것이 됩니다. 어렵게 내재화하여 손에 익혀 둔 기술과 도구가 막상 실제 서비스 오픈 시점에서 보면 시대에 뒤처진 것이 되어 있곤 합니다. 3. 데이터 처리의 어려움 AI/ML 관련 데이터 준비 작업은 매끄럽게 이어지지 않습니다. 계단 올라가듯이 뭔가 하나 해놓고 나서 다음 단계에 뭔가를 하는 식으로 데이터를 준비하는 단절된 과정으로 이어집니다. 데이터를 모이고, 정제하여 트레이닝과 인퍼런싱 과정에 전달하는 과정은 자동이 아니라 수작업으로 이루어집니다. 이는 작업 효율에만 영향을 끼치는 것이 아니라 AI/ML 프로젝트의 결과까지 영향을 끼칩니다. 최근 MLOps 관련해 모델 개발과 데이터 파이프라인 자동화를 하나의 흐름에서 보려고 노력하는 이유도 같은 배경에서 이해할 수 있습니다. 4. 모니터링의 부재 AI/ML 모델 배포는 일회성 작업으로 끝나는 일이 아니죠. AI/ML 모델은 끊임없는 반복 속에서 나은 결과를 제공하는 방향으로 진화합니다. 이런 이유로 재현성을 매우 중요하게 보는데요, AI/ML 모델 배포와 관리 자동화 기반이 없는 경우 모델 관련 모니터링이 원활하게 이루어지지 않는 문제가 있습니다. 5. 전문 인력의 부재 어떤 분야건 시쳇말로 '뜨는 테마'가 되면 관련 전문 인력이 시장에서 씨가 마릅니다. AI/ML 역시 시장에서 실력자를 찾기 참 어렵죠. AI/ML 프로젝트의 성공률을 높이려면 데이터 과학자, 데이터 엔지니어, DevOps & MLOps 엔지니어 등 여러 분야 전문가가 필요합니다. 문제를 각 분야별 전문가로 팀을 짜는 것이 어벤저스 팀원 모으는 것만큼 어렵다는 것입니다. 6. 늘 모자라는 컴퓨트 자원 AI/ML 프로젝트는 고성능 컴퓨팅 자원을 필요로 합니다. AI/ML 프로젝트가 일정에 맞게 제 속도로 순조롭게 진행되려면 팀이 요구하는 성능이 충분히 뒷받침되어야 합니다. CPU 자원과 GPU 자원 모두 넉넉하게 준비하는 것은 어느 기업이나 부담스럽긴 마찬가지입니다. 그렇다면 이 문제에 대한 답은 어디서 찾아야 할까요? AI/ML 프로젝트의 성공 확률을 높이는 구체적인 방안을 정리한 KInetica의 백서 또는 유클릭 전문가의 무료 컨설팅을 통해 그 답을 찾아보세요. #유클릭 #Kinetica #AI_프로젝트 #ML_프로젝트 #인공지능 #머신러닝 #데이터_과학자 #키네티카 #데이터_엔지니어 #데이터_파이프라인
Red Hat Enterprise Linux 7을 이제 NVIDIA DGX Server & Station이 공식 지원합니다!
2020년 2월 6일 NVIDIA에서 DGX Server와 DGX Station 소프트웨어 스택에 레드햇 엔터프라이즈 리눅스(RHEL) 서버 7을 포함한다고 발표했습니다. 이로써 DGX Server와 DGX Station을 이용하는 사용자에게 운영체제 선택권이 우분투 데스크톱 리눅스에서 RHEL 7까지 넓어졌습니다. 기업이나 연구소의 경우 두 손들어 반길 소식이 아닐까 싶네요. 네, RHEL 7 정식 지원이 뜻하는 바는 필요한 경우 레드햇의 공식 지원을 받을 수 있다는 것입니다. NVIDIA는 레드햇과 손잡고 DGX 소프트웨어 스택과 RHEL 7 간의 호환성을 사전 검토하였고, 최적화를 통해 DGX Station에서 옵션을 통해 사전에 설치된 상태로 받아볼 수 있게 되었습니다. 참고로 사전 호환성 테스트의 경우 GPU 드라이버, 딥러닝 소프트웨어, 딥러닝 프레임워크, 컨테이너 등 DGX 소프트웨어 스택 구성 요소 모두를 대상으로 이루어졌습니다. 사용자는 옵션으로 호스트 운영체제로 RHEL 7이 포함된 DGX 소프트웨어 스택을 선택할 수 있습니다. DGX Server와 DGX Station의 RHEL 7 관련 지원 내용은 다음과 같습니다. · 베어메탈 워크로드 지원 · Security-Enhanced Linux 지원 · RHEL 운영체제 이슈 해결을 위한 L1, L2 지원 이용 가능 참고로 RHEL 7 이외 버전은 공식 지원 대상이 아닙니다. 레드햇 구독 서비스를 이용 중이라면 이제 RHEL 7을 DGX Server와 DGX Station에서 바로 사용이 가능합니다. #유클릭 #NVIDIA #DGX_Server #DGX_Station #레드햇 #우분투 #레드햇_엔터프라이즈_리눅스 #RHEL_7 #리눅스_설치
이탈리아 에너지 기업 Eni - GPU 기반 52페타플롭스 수준의 슈퍼컴퓨터 공개
이탈리아 밀란에 본사를 둔 에너지 기업인 Eni가 HPC5라는 이름의 슈퍼컴퓨터를 공개했습니다. HPC5는 GPU 가속 기반 컴퓨팅 기술을 적극적으로 활용한 슈퍼컴퓨터로 그 성능이 무려 52페타플롭스(Petaflop)에 이릅니다. 이 수치가 잘 안 와닿죠. 대략 초당 5천500백만 억 개의 연산을 수행할 수 있다고 보면 됩니다. 이 숫자도 너무 크다 보니 체감이 잘 안되긴 하네요. Eni의 슈퍼 컴퓨팅 파워는 이번 HPC5 운영을 통해 업계 최고 수준이 되었습니다. 2018년부터 사용한 HPC4와 함께 이용할 경우 Eni 슈퍼 컴퓨팅 인프라의 총 성능은 70페타플롭스가 됩니다. 이렇게 되면 연산 능력이 초당 7천억 개까지 올라가네요. Eni는 친환경 에너지 개발, 유전 탐사와 모니터링 등을 위한 목적으로 슈퍼컴퓨터 인프라를 확장하고 있습니다. HPC5의 주요 사양을 알아보자면 서버는 1820 Dell EMC의 장비가 1,820대 쓰입니다. 이들 장비에는 서버당 4개의 NVIDIA V100 Tensor Core GPU가 장착됩니다. 각 GPU는 맬라녹스의 인피니밴드를 통해 연결됩니다. 전체를 놓고 보면 총 7,280개의 NVIDIA V100 GPU가 장착된 것이네요. 이처럼 많은 GPU를 사용하는 이유는? 네, AI를 본격적으로 슈퍼 컴퓨팅 사용 시나리오의 상단에 올려놓기 위함입니다. HPC4와 HPC5를 합하면 GPU의 숫자가 1만 개로 늘어납니다. 네, 3,400개의 CPU와 1만 개의 GPU가 조합된 하이브리드 슈퍼컴퓨터 환경에서 전통적인 워크로드와 함께 AI 프로젝트를 수행할 수 있는 역량을 Eni가 갖추게 된 것입니다. GPU 가속 기반 기술의 결정체인 HPC5의 랭킹은 어느 정도일까요? Top500 슈퍼컴퓨터 리스트에서 5위에 이름을 올리고 있습니다. 석유 및 가스 산업 분야에서는 최고이자 최초 수준이고요. 이처럼 강력한 파워는 Eni가 사용하는 시뮬레이터인 ECHELON 실행에 주로 쓰일 예정이라고 하네요. 이를 통해 AI 기반의 에너지원 탐색의 새 시대를 열어갈 계획이라 합니다. 한국에서도 이런 시도가 하루빨리 나왔으면 좋겠네요. #유클릭 #슈퍼컴퓨터 #GPU #에너지_기업 #에너지_연구 #에너지_슈퍼컴퓨터 #Dell_EMC_서버 #델_서버 #맬라녹스 #인피니밴드 #NVIDIA #NVIDIA_V100_GPU #GPU
AI와 첨단 분석의 발목을 잡는 것은? 너무 길고, 효율적이지 못한 데이터 준비 작업!
인공 지능과 첨단 분석의 중요성이 커지면서 새롭게 관심을 끄는 분야가 있습니다. 바로 데이터 시각화, 각종 통계 및 분석, 머신 러닝을 위한 데이터 준비(Data preparation) 관련 도구입니다. 전통적으로 데이터 분석가나 개발자는 IT 부서 도움을 받아 데이터 준비 작업을 했습니다. IT 부서는 요구받은 데이터 세트를 ETL 작업을 열심히 해서 전달하죠. 데이터를 다루는 사용자와 서비스/애플리케이션이 많지 않았던 시절에는 이런 식의 작업에 불편함이 없었습니다. 하지만 지금은 좀 다르죠. 데이터 준비 작업에 대한 모든 현업 부서 사용자, 데이터 과학자, 개발자의 요구를 전통적인 방식으로 하면 IT 부서의 업무가 마비될 수 있습니다. 관련해 셀프서비스 방식으로 사용자가 직접 데이터 준비 작업을 하는 것에 대한 이야기도 많았죠. 하지만 이 역시 한계가 있다 보니 최근에는 머신 러닝 기반으로 데이터 준비 작업을 최적화해주는 솔루션까지 등장하고 있습니다. 이런 솔루션의 등장 이유는 어설프게 데이터 사전 작업을 할 경우 그 결과가 분석과 머신 러닝 프로젝트의 품질에 큰 영향을 끼치기 때문입니다. 정작 중요한 일에 쓸 시간은 없고, 데이터 준비에 턱없이 많은 시간을 허비하는 현실 관련해 데이터 준비 관련 솔루션 전문 기업인 Trifacta가 흥미로운 설문 조사 결과를 발표했습니다. 결론을 말하자면 어설픈 데이터 준비 과정을 거쳐 마련한 데이터 세트는 분석과 머신 러닝 프로젝트의 발목을 잡는다는 것입니다. 이 속에 담긴 의미는 데이터 과학자, 분석가, 개발자는 단순 반복적이고 시간을 많이 허비하는 데이터 준비 작업에 너무 많은 시간을 쓴다는 것입니다. 정작 중요한 일에 쓸 시간을 데이터 준비하느라 허비한다는 것이죠. 그리고 많은 시간을 쓰지만 제대로 준비 과정을 거치지 않은 낮은 품질의 데이터로 인해 프로젝트 지연, 잘못된 결과를 바탕으로 한 의사결정 등의 문제가 생길 수 있는 것도 발목을 잡는 포인트입니다. 설문은 총 646명의 데이터 전문가를 대상으로 이루어졌습니다. 주요 내용을 보자면 응답자 중 46%가 AI, 머신 러닝 관련 데이터 준비에 일 단위로 10시간 이상, 주 단위로 40시간 이상을 쓴다고 답했습니다. 또한, 59%의 응답자가 품질이 낮은 데이터 세트로 인해 수요를 잘못 예측한 적이 있고, 26%가 타깃을 잘못 잡은 적이 있다고 답했습니다. 데이터에서 중요한 통찰력을 확보하는 것이 아니라 잘못된 방향으로 조직을 이끄는 우를 범할 수도 있다는 생각이 드는 대목이네요. AI, 머신 러닝, 첨단 분석을 위해 준비한 데이터의 품질에 확신을 갖고 있는 조직은 얼마나 될까요? Trifacta의 조사의 경우 75%가 데이터 품질에 확신이 없다고 답을 했습니다. 데이터 품질은 프로젝트에 직간접적으로 영향을 끼칩니다. 응답자 중 38%는 낮은 품질의 데이터로 인해 프로젝트 지연으로 이어진다고 답했고, 36%는 원하는 결과에 다다르는 데 실패하게 되는 이유가 된다고 응답했습니다. 데이터 준비가 문제라면? 이를 해결하는 솔루션이 있지 않을까? Trifacta의 설문 조사는 자사 솔루션과 기술의 필요성을 어필하기 위한 목적으로 수행된 것입니다. 하지만 억지스럽지 않습니다. 모두가 공감하는 그런 결과가 나왔으니 말이죠. 그렇다면 이런 문제를 Trifacta는 어떻게 풀어 내고 있을까요? Trifacta는 자사의 기술을 데이터 준비라고 하지 않고 'Data Wrangling'이라고 표현합니다. 그 내용을 보면 데이터 탐색(Discovering), 구조화(Structuring), 정제(Cleaning), 보강(Enrhching), 유효성 검사(Validating), 퍼블리싱(Publising)을 머신 러닝 기반으로 최적화해주는 것입니다. 네, 데이터 준비인데 데이터베이스, 빅 데이터, API 연계 등 다양한 원천에서 데이터를 가져와 준비 작업을 처리하여 높은 품질의 최종 데이터 세트를 머신 러닝, 데이터 분석 등에 활용할 수 있도록 돕습니다. 이상으로 간단히 데이터 준비 관련 현업 관계자들의 고충이 무엇인지? 이를 풀기 위해 등장한 솔루션은 무엇을 차별점으로 내세우는지 간단히 살펴보았습니다. 더 자세한 내용은 Trifacta 페이지를 참조 바랍니다. #유클릭 #데이터 #데이터_준비 #인공지능 #빅데이터 #Trifacta #Data_preparation #데이터_품질 #데이터_정제 #데이터_유효성_검사 #데이터_ETL #데이터_과학자 #데이터_분석가 #개발자
ML Ops ~ 거스를 수 없는 대세? 데이터 과학자와 AI 개발자가 쿠버네티스와 컨테이너에 관심을 갖는 이유
엔터프라이즈 환경에서 IT가 '비즈니스'와 긴밀히 연결되면 '효율성과 민첩성 확보'가 우선순위 높은 과제가 됩니다. 인공 지능도 이런 길을 걷고 있습니다. 인공 지능을 몇 년 전만 하더라도 관심의 영역에 놓여 있었습니다. 2020년 현재 인공 지능은 기업의 비즈니스 전략 중심에 자리하고 있습니다. 이처럼 비즈니스 실행과 성과에 밀접한 영향을 주는 요소가 되면서 인공 지능 관련 IT 투자와 운영에 있어 '효율성과 민첩성 확보'가 매우 중요해졌습니다. 관련해 요즘 ML Ops란 키워드가 유행하고 있습니다. DevOps에서 파생된 개념으로 머신 러닝 모델 개발, 트레이닝, 배포를 일련의 흐름처럼 지속해서 이루어지게 하는 환경과 방법론을 뜻한다고 보면 됩니다. 데이터 과학자, AI 개발자도 쿠버네티스와 컨테이너와 친해져야 할 때 ML Ops 구현에 있어 주목받는 기술이 쿠버네티스와 컨테이너입니다. 전통적으로 데이터 과학자와 AI 개발자는 프로젝트 수행을 위해 개발 환경을 직접 꾸려야 했습니다. 운영체제 설치하고, 필요한 프레임워크와 라이브러리 설치하는 등의 과정을 거쳐야 했죠. 소프트웨어 스택이 바뀌면 같은 작업을 반복해야 했습니다. 그나마 요즘에는 클라우드를 사용할 경우 IT 부서 도움 없이 할 수 있어 편해지긴 했죠. 하지만 단순 반복적인 작업이란 본질에는 변함이 없습니다. ML Ops를 구현하면 단순 반복이 크게 줄어듭니다. 그 이유는 간단합니다. 컨테이너를 이용하면 소프트웨어 스택 구성에 시간을 허비하지 않아도 됩니다. 필요한 라이브러리와 프레임워크 조합으로 구성한 컨테이너를 여러 개 만들어 운영하기도 좋습니다. 마이크로서비스 아키텍처 환경을 따르므로 모델 배포와 운영 시 확장도 간편합니다. 온프레미스, 클라우드 어디건 원하는 곳에 수정 없이 배포가 가능하므로 자원 활용 측면에서 경제성 확보도 유리합니다. 쿠버네티스를 이용하면 자동화 기반으로 여기저기에 구축한 컨테이너 클러스트 운영도 편리합니다. 개발, 트레이닝, 배포에 어떤 도움을 주나? 그렇다면 ML Ops 환경은 구체적으로 개발, 트레이닝, 배포에 어떤 이득을 가져올까요? 먼저 개발의 경우 단순 반복적인 작업을 줄이는 효과를 제공합니다. 개발 단계에서 데이터 과학자와 개발자는 프로젝트 목표에 맞는 최적의 환경을 찾게 됩니다. 여러 가지 프레임워크와 라이브러리를 적용해 보면 '최선의 선택'을 찾게 되는데요, 컨테이너 환경에서는 이 과정을 매우 신속하게 할 수 있습니다. 각각의 테스트 환경을 독립된 컨테이너 상에 구축해 이것저것 해보기 좋습니다. 다음으로 트레이닝 단계의 경우 확장의 이점이 큽니다. 모델 트레이닝 과정은 컴퓨트 자원이 가장 많이 소모되는 단계입니다. 이때 자원 부족으로 인한 트레이닝 시간 지연 등의 문제가 생길 수 있는데요, 컨테이너 환경은 이를 간단히 해결합니다. 네, 자원이 부족하면 공용 클라우드에 컨테이너 환경을 배포하면 됩니다. 쿠버네티스와 컨테이너는 오픈 소스를 바탕으로 사실상의 표준이 되어 가고 있습니다. 따라서 사내에서 구축한 컨테이너를 큰 수정 없이 공용 클라우드 서비스에 배포하는 것이 매끄럽게 이루어집니다. 배포 단계에서 주는 이점에서 확장도 중요하지만 더 눈여겨볼 것은 마이크로서비스 아키텍처라 할 수 있습니다. 프로덕션 환경은 보통 여러 가지 모델이 함께 적용됩니다. 새로 더해지는 것도 있고, 빠지는 것도 있고 있게 되죠. 관련해 컨테이너를 기반으로 마이크로서비스 아키텍처를 구축한 경우 각각의 모델을 마이크로서비스 형태로 배포하고 연계하는 것이 수월합니다. 네, 비즈니스 요구 변화에 맞게 인공 지능 기반 서비스와 애플리케이션을 진화 발전시켜 나아가기 좋습니다. #마이크로서비스_아키텍처_인공지능 #인공지능 #컨테이너 #쿠버네티스 #ML_OPS #DEVOPS #Kubernetes-Operators #레드햇 #오라일리
도시를 가꾸는 인공 지능 ~ 평범한 거리를 아름다운 느낌 가득한 길로 바꾸어 보여주는 AI
매일 걷는 길도 우리의 상상에 따라 얼마든지 아름다운 공간이 될 수 있다? 네, 가능합니다. 머릿속으로만 상상하는 것이 아닙니다. 우리 눈에 익은 매일 보던 길이 실력 좋은 도시 설계자의 손길이 닿은 듯한 거리의 모습으로 우리 눈앞에 이미지로 나타날 수 있습니다. 이게 어떻게 가능하냐? 인공 지능이 있어 가능합니다. FaceLift라는 프로젝트가 있습니다. 노키아 벨 연구소와 케임브리지 대학이 함께 추진 중인 프로젝트인데, 아이디어가 참신합니다. 딥러닝 모델을 만들어 구글 스트리트 뷰 이미지들을 데이터 세트로 사용해 오리지널 거리 사진을 인공 지능이 더 아름다운 모습으로 바꾸어 보여줍니다. 다음 그림을 보면 이해가 빠를 것입니다. 먼저 전 세계 162개 국의 8만 2천 명의 자원봉사자가 2만 장의 구글 스트리트 뷰 이미지를 평가를 합니다. 참가자들은 자신이 본 거리의 모습을 느낌 그대로 평가합니다. 아름다운지, 뭔가 어색한지 등 우리가 도시의 거리를 마주할 때 느끼는 감성을 평가에 담는 것이죠. 이를 데이터 세트로 활용해 딥러닝 모델을 트레이닝을 합니다. 이렇게 훈련한 모델에 실제 원래 거리 이미지를 넣으면, 인공 지능이 이 거리를 더 아름답게 꾸밉니다. 그리고 이를 결과물로 보여 줍니다. 가령 이 거리는 너무 휑한 느낌이 드니 나무를 몇 개더 심고, 이쁜 건물을 올리면 더 친근하고 아름다운 거리가 되겠다? 이런 상상을 실제 이미지로 구현해 보여주는 것이죠. 다음이 그 예입니다. 뭔가 심심한 느낌의 왼쪽 거리를 딥러닝 모델이 오른쪽과 같이 정감 어린 거리 모습으로 바꾸어 보여 줍니다. FaceLift 프로젝트 사이트에 가면 미국 보스턴의 실제 거리 모습이 아름답게 바뀌는 인터랙티브 도시 지도를 체험해 볼 수 있습니다. 사람들의 선호하는 거리의 모습을 인공 지능이 표현해 주는 것을 실제로 보면 꽤 실력이 좋은 도시 설계자의 손길이 느껴집니다. FaceLift 프로젝트는 도시 재생을 고민하는 전 세계 도시에 큰 도움이 되지 않을까 싶네요. 무분별한 확장식 재개발 없이 도시에 활력과 에너지를 주는 모습으로 거리를 가꾸는 데 있어 인공 지능이 확실한 도움을 줄 것 같습니다.
소프트웨어 개발자를 돕는 보이지 않는 손 AI - 코딩 교육의 목표는 결국 상상과 창의
요즘 코딩 교육에 대한 관심이 뜨겁습니다. 관련해 교육, 교재, 학습 기자재 관련 분야에서 코딩 교육의 중요성을 이야기하고 있습니다. 코딩 교육의 목표는 코더 양성이 아닐 것입니다. 디지털 시대를 살아가는 이들에게 요구되는 생각하는 방식과 힘을 키우기 위한 것이 더 큰 목표가 아닐까 싶네요. 소프트웨어 개발에 있어 사람의 역할은 '상상과 창의' 두 부분에 초점이 모이지 않을까 조심스럽게 생각해 봅니다. 그 이유는? 소프트웨어 개발에 있어 인공 지능이 꽤 중요한 역할을 할 것으로 보이기 때문입니다. 소프트웨어 개발에 있어 가장 중요한 과정 중 하나는 코드 리뷰와 테스트를 통해 문제를 파악한 다음 디버깅을 하는 것입니다. 사람이 짠 코드가 100% 완벽할 수는 없겠죠. 작은 실수 하나가 소프트웨어 오작동의 원인이 되거나, 보안 취약점이 되기 때문에 개발 못지않게 리뷰와 테스트는 중요합니다. 관련해 인공 지능과 머신 러닝은 앞으로 IDE(Integrated Development Environment) 도구의 중요 기능으로 자리 잡을 것 같습니다. IDE가 제공하는 각종 '자동' 기능이 더 정교하게 동작하는 데 있어 인공 지능과 머신 러닝이 큰 역할을 할 것이란 소리죠. 관련해 앞으로는 코딩에 대한 실시간 분석을 통해 잘못된 구문이나 보안 취약점이 생길 수 있는 부분을 찾아내고, 개발자에게 이를 방지하기 위한 제안이 이루어질 것으로 전망하고 있습니다. 이런 식으로 발전하다 보면 하드 코딩의 비중은 자연히 줄 것입니다. 코드 리뷰, 디버깅, 시큐어 코딩 등 복잡하게 생각할 것도 줄 것입니다. 결국 개발자의 역량은 알고리즘에 대한 상상과 창의에 집중되겠죠. 이런 분위기는 디자인 쪽도 마찬가지입니다. 오히려 더 빠른 것 같습니다. ADI(Artificial Design Intelligence)라는 웹 디자인 관련해 요즘 뜨고 있는데요, 말 그대로 코딩을 몰라도 웹 디자인을 할 수 있게 하는 것입니다. 대표적인 예가 Sketch2Code가 있죠. 이 내용은 따로 정리한 포스팅을 참조 바랍니다. #소프트웨어_교육 #코딩_교육 #인공지능 #IDE_인공지능 #시큐어코딩 #코드_리뷰