검색 결과

"" 검색 결과: 157개의 아이템

ChatGPT 서비스 운영 인프라의 비밀
100백만명 이상의 사용자를 호스팅하는 ChatGPT를 구동하는 데 필요한 인프라는 무엇인지 그리고 이 인프라가 Azure에서 어떻게 운영되는지 궁금하지 않으세요? 이를 소개하는 마이크로소프트 유튜브 영상이 있어 간단히 핵심만 추려 보았습니다. 상세 내용은 다음 영상을 참조 바랍니다. 강력한 성능 ChatGPT 같이 글로벌 스케일로 서비스를 하는 생성형 AI 서비스는 시쳇말로 달러를 태워 가며 서비스를 한다고 표현합니다. 그 만큼 비용이 많이 들어 간다는 것인데요, 그도 그럴 것이 초거대 언어 모델(LLM) 기반 서비스다 보니 상상 이상의 성능이 필요합니다. 안정성, 확장성 등도 물론 기본이고요. LLM 모델 학습은 매우 자원이 많이 들고 비싸기 때문에 효율적인 인프라 구축이 필수입니다. 서버나 네트워크 연결 등의 문제로 인해 오류가 발생하게 되면, 이를 신속하게 진단하고 해결할 수 있는 시스템도 필요합니다. 이를 위해 마이크로소프트 Azure는 데이터센터 인프라에 많은 투자를 하였고, 고성능 네트워크로 GPU 클러스터를 제공하여 효율적인 학습을 지원하도록 하였습니다. 2020년에 마이크로소프트가 OpenAI를 위해 구축한 슈퍼컴퓨터는 285,000개 이상의 AMD Infiniband 연결 CPU 코어와 별도로 10,000개의 NVIDIA V100 Tensor Core GPU를 포함하고 있습니다. 이 시스템은 당시 세계에서 다섯 번째로 큰 슈퍼컴퓨터이며, 퍼블릭 클라우드에서 구축된 가장 큰 슈퍼컴퓨터였습니다. OpenAI의 ChatGPT 서비스는 날이 갈수록 강력해지고 있습니다. 최근에는 NVIDIA H100까지 투입이 되고 있습니다. Azure에서 제공하는 새로운 H100 VM 시리즈는 Nvidia H100 Tensor Core GPU를 사용하며, 필요에 따라 수천 개의 GPU로 확장할 수 있습니다. 이는 이전 세대의 Nvidia A100 GPU에 비해 성능이 30배 높고, 학습은 4배 더 높습니다. 이러한 GPU는 멀티테넌트 클라우드 컴퓨팅을 위해 특별히 설계되었습니다. 또한, 마이크로소프트는 단일 노드에서 NV 스위치와 NVLink 4.0를 사용하여 양방향 대역폭을 3.6TB/s로 늘렸습니다. 이는 4K 비디오를 1초에 80개 다운로드하는 속도와 같습니다. 그리고 더 많은 노드를 사용하여 확장할 때 Infiniband 링크는 GPU당 400Gb, 서버당 총 3.2Tb를 제공합니다. 오류 진단과 처리 LLM 모델 기반 생성형 AI 서비스 같은 서비스를 Azure를 통해 제공함에 있어 신뢰성을 어떻게 보장해야 할까요? LLM 모델 훈련과 LLM 기반 서비스는 자원 집약적입니다. 따라서 서버나 네트워크 링크 같은 문제로 인해 오류가 발생할 수 있습니다. 따라서 신뢰성을 보장하려면 오류를 신속하게 진단하고 해결할 수 있는 시스템이 필요합니다. 마이크로소프트는 어떻게 이런 과제를 해결할까요? 바로 Project Forge가 GPU 백업과 커널에 연결된 상태에서 코드 수정이나 수동 체크포인트 실행 없이 투명하게 백그라운드에서 실행됩니다. 이것이 가능한 것은 하드웨어 파트너와 협력 덕분으로, 마이크로소프트는 GPU 파트너와 협력해 GPU에서 메모리를 체크포인트하고 복원하는 데 필요한 사용자 모드에서의 체크포인트 및 복원 기능을 구현했습니다. 이는 CPU에서 수행하는 체크포인트와 일관성을 유지하는 것을 가능하게 합니다. LLM 기반 PaaS의 차별점 및 사례 Azure는 파인 튜닝 관련 자원 효율도 극대화합니다. 가령 GPT3 모델을 효율적으로 파인 튜닝하기 위해Microsoft Research에서 개발한 '낮은 순위 적응' 또는 'LoRa 파인 튜닝'이라는 기술을 사용하여 모델의 일부만 개선합니다. 이로 인해 GPT와 같은 모델을 파인 튜닝할 때 전체 매개변수의 1% 미만만 파인 튜닝하면 됩니다. 따라서 96개의 GPU가 아니라 24개의 GPU만 필요하게 되고, 테라바이트 크기의 체크포인트 대신 200메가바이트 크기의 체크포인트만 필요하게 됩니다. Azure 슈퍼컴퓨터 기능은 모든 사람이 자신의 작업을 위해 사용할 수 있습니다. AI 인프라는 매우 작은 작업부터 OpenAI 규모와 같은 매우 큰 작업까지 모든 것을 지원합니다. 마이크로소프트가 제공하는 최적화된 하드웨어 인프라를 활용하면 최신 GPU, Infiniband 네트워킹, 네트워크 튜닝 등을 통해 최적의 상태로 가상 머신을 사용할 수 있습니다. 또한, 모델 구축 및 실행에 중점을 두려면, Onyx 런타임이나 더 효율적인 분산 훈련을 위한 Deep Speed 훈련 프레임워크 등의 프레임워크와 MLOps 서비스를 이용할 수 있습니다. Azure 머신러닝의 PaaS 서비스는 우리의 인프라와 자연스럽게 통합되어 모델을 구축할 수 있게 해줍니다. AML을 이용하면 GPT-4와 같은 모델을 쉽게 파인 튜닝하고 파인 튜닝된 모델을 자신의 애플리케이션에서 사용할 수 있는 관리 서비스로 배포할 수 있습니다. 오늘날 여러 조직들은 자신들의 솔루션을 위해 Azure의 AI 슈퍼컴퓨터를 활용하고 있습니다. 대표적인 사례로는 Wayve라는 회사가 있습니다. 이 회사는 영국에 위치한 자율주행 기술의 선두 주자로 분산 AI를 기반으로 한 자율주행 시스템에 특화하고 있습니다. 주로 비전 기반 머신러닝을 사용하며 Azure 슈퍼컴퓨터를 이용해 연간 수백만 시간의 운전 데이터에서 모델을 수집, 관리, 훈련합니다. 이상으로 ChatGPT 및 LLM 기반 PaaS 제공을 위해 마이크로소프트의 인프라 투자 및 운영 방안을 간단히 알아 보았습니다. 더 자세한 내용은 영상을 참조 바랍니다. #Azure #ChatGPT #OpenAI #H100_GPU
ETL용 GPU? Capgemini의 테스트 결과 Apache Spark 용 NVIDIA RAPIDS Accelerator로 더 낮은 비용으로 ETL 성능 개선이 가능!
프랑스에 본사를 둔 IT 서비스 기업인 Capgemini가 한 소매 기업 고객의 고민 해결을 위해 Apache Spark 및 Databricks용 NVIDIA RAPIDS Accelerator 적용을 고려하였습니다. 최종 프로덕션 환경에는 Databricks Photon을 적용하였지만 Capgemini는 ETL 작업을 가속하는 데 있어 NVIDIA RAPIDS Accelerator의 가능성을 확인할 수 있었습니다. 관련해 Databricks를 Apache Spark용 RAPIDS Accelerator와 결합하여 데이터 엔지니어링 역량을 강화하여 고객의 다양한 요구에 대응할 계획을 세웠다고 합니다. 간단하게 Capgemini의 사전 기술 검토 과정을 알아보겠습니다. Capgemini는 한 소매(Retail) 고객의 요구 사항을 해결해야 했습니다. 고객이 원한 것은 각 소매점에 대한 최적의 상품 배치를 결정할 수 있는 의사결정 솔루션(retail assortment allocation solution)이었습니다. 이 솔루션은 소매 고객이 운영하는 여러 매장의 POS에서 데이터를 수집해 상품 판매량 예측, 상품 재고 수준 예측, 상품 배치 계획 수립 등을 지원해야 합니다. 솔루션 구현 방향을 잡는 것은 Capgemini에게 어려운 일이 아니었습니다. 솔루션의 로직은 심플합니다. POS 거래 기록을 ETL 작업을 통해 처리합니다. 그리고 훈련된 지도 학습 모델을 사용하여 ETL 작업을 통해 가져온 데이터 세트에서 예측을 수행합니다. 이 아이디어를 실제 시스템으로 구현하는 데 있어 발목을 잡는 현실적 이슈가 있었습니다. 수조 건이 넘는 POS 거래 기록의 ETL 작업을 몇 시간 만에 처리해야 한다는 것이 솔루션이 동작할 수 있는 전제 조건이었는데, 현실적으로 짧은 시간 내에 ETL 작업을 완료하는 것은 불가능해 보였습니다. 처음 테스트를 해본 결과 ETL 처리 시간이 며칠이 걸렸다고 합니다. 시스템에 제대로 예측을 수행하려면 몇 시간 안에 마무리 되어야 할 작업이 며칠이 걸린다면? 아무리 다운스트림 기계 학습 모델을 아무리 잘 만들어 훈련을 잘 시켜도 소용이 없는 일이 됩니다. Capgemini는 문제 해결을 위해 Databricks Photon 이용과 Databricks용 NVIDIA RAPIDS Accelerator를 클러스터에 적용하는 것을 살펴 보았습니다. 시간적으로 보면 Databricks Photon 검토가 먼저 이루어지다 보니 최종 프로덕션 환경에는 Databricks Photon이 적용되었습니다. 그러나 NVIDIA RAPIDS Accelerator 적용 후 테스트한 ETL 성능은 매우 만족스러웠다고 합니다. Capgemini는 소매 고객을 위한 솔룰션을 Databricks와 Spark SQL을 사용하여 Azure 클라우드 환경에서 운영하고자 했습니다. 이에 NVIDIA RAPIDS Accelerator를 적용했는데, 비용 대비 성능 개선 측면에서 보면 NVIDIA RAPIDS Accelerator이 매력적이었다고 합니다. 테스트는 다음과 같은 조건에서 이루어졌습니다. Databricks Photon은 하이퍼 스레드 구성의 3세대 Intel Xeon Platinum 8370C(Ice Lake) CPU에서 실행 RAPIDS Accelerator는 NVIDIA GPU에서 실행 평가 결과는? Capgemini는 작업자 유형, 운전자 유형, 작업자, 데이터 세트 크기, 플랫폼, 데이터 열 및 데이터 세트 크기의 모든 다양한 조합으로 평가를 수행하였습니다. Capgemini는 DBU/시간 인프라 지출과 클러스터 작업자 투입을 적용해 ADBU(adjusted DBUs per minute)라는 지표를 만들었습니다. 이 지표를 기준으로 비교해 보니 클라우드 플랫폼 비용을 고려할 때 Databricks Photon 런타임에서 Spark를 실행할 때와 비교할 때 RAPIDS Accelerator를 사용할 때 전체적으로 ADBU가 6% 감소했습니다. 이것은 RAPIDS Accelerato를 사용하여 더 낮은 비용으로 성능 개선이 가능함을 보여주는 결과입니다. 실제 프로덕션 환경에는 Databricks Photon이 적용되었지만 Capgemini는 RAPIDS Accelerator 엔지니어링 역량을 통해 ETL 관련 새로운 옵션을 제안할 수 있는 경험을 쌓을 수 있었습니다. RAPIDS Accelerator와 ETL? 이 조합에 대한 더 많은 가능성을 탐색하고 싶다면 RAPIDS Accelerator 사이트를 참조 바랍니다. #유클릭 #RAPIDS #Databricks #Databricks_Photon #RAPIDS_ETL
금융 산업 특화 초거대 언어 모델(LLM) ‘Financial Transformers’ 시대가 온다!
금융 산업에 최적화된 초거대 언어 모델(LLM) 동향을 좀 짚어 볼까 합니다. 업계서는 이를 ‘Financial Transformers’ 또는 ‘Finformer’라고 부르는데, 본 포스팅에서는 Finformer로 용어를 통일하겠습니다. Finformer의 개념과 등장 배경 그리고 동향을 먼저 알아보겠습니다. Finformer는 이름에서 알 수 있듯이 금융 산업의 데이터로 모델을 최적화한 LLM입니다. ChatGPT가 대중의 관심을 받기 전부터 주요 금융 기관은 Finformer에 주목했습니다. 그리고 2023년 현재 선도적인 금융 기관들은 Finformer 전략 수립을 넘어 생성형 AI를 대내 업무와 대외 서비스에 접목할 수 있는 실행 단계에 이르렀습니다. 발빠르게 움직이고 있는 금융기관들… Finformer 분야의 대표 사례로 NVIDIA와 도이치 뱅크의 협업을 꼽습니다. 양사는 협력을 통해 Finformer 모델을 최적화하고 이를 활용하는 시나리오를 개발해 실제 현장에 적용하고 있습니다. 몇 가지 예를 들면 다음과 같습니다. 도이치 뱅크는 사내 데이터를 활용해 모델을 학습하고 미세 조정을 하여 실제 업무에 생성형 AI를 접목하고 있습니다. 도이치 뱅크는 하이브리드 클라우드 접근을 하고 있습니다. 온프레미스 데이터센터와 함께 구글 클라우드를 이용하는 데 NVIDIA AI Enterprise를 이용해 AI 모델 배포와 관리를 일원화하였습니다. 위험 관리 및 금융 범죄 방지: Finformer 모델은 금융 시장의 데이터를 분석하여 위험을 식별하고 금융 범죄를 예방하는 데 사용할 수 있습니다. 예를 들어 Finformer 모델은 주식 시장의 데이터를 분석하여 주가 폭락을 예측하고, 은행 거래 데이터를 분석하여 금융 사기 거래를 예방할 수 있습니다. 고객 서비스: Finformer 모델은 고객 서비스 챗봇을 강화하고 고객의 질문에 보다 정확하고 유익한 답변을 제공하는 데 사용할 수 있습니다. 예를 들어 Finformer 모델은 고객 서비스 챗봇에 훈련되어 고객의 질문을 이해하고 적절한 답변을 제공할 수 있습니다. 도이치뱅크의 경우 3D 아바타를 통해 차별화된 고객 경험을 제공합니다. 자문: Finformer 모델은 고객에게 보다 정확하고 유용한 자문을 제공하는 데 사용할 수 있습니다. 예를 들어 Finformer 모델은 고객의 투자 포트폴리오를 분석하여 위험을 식별하고 투자 수익을 개선하는 데 도움을 줄 수 있습니다. 도이치 뱅크와 함께 주목받는 곳이 또 있습니다. 바로 블룸버그입니다. 블룸버그는 최근 금융 데이터와 코드의 대규모 데이터 세트에서 훈련된 LLM인 BloombergGPT를 공개하였습니다. 용도는 뭐 도이치 뱅크와 크게 다르지 않습니다. 금융 시장의 데이터를 분석하여 위험을 식별하고 금융 범죄를 예방하거나, 투자 보고서나 재무 보고서를 생성하거나, 고객의 질문에 보다 정확하고 유익한 답변을 제공하는 데 사용하는 등의 용도입니다. 물론 앞으로 활용 시나리오는 무궁무진할 것으로 보입니다. 오픈 소스 기반 대안도 있어! 여느 분야와 마찬가지로 Finformer 역시 오픈 소스 프로젝트가 있습니다. 바로 FinGPT입니다. 이 LLM 역시 텍스트와 코드의 대규모 금융 데이터 세트에서 훈련되었으며, 다양한 금융 관련 작업을 수행할 수 있습니다. Finformer는 금융 부문의 AI 투자 방식에 큰 변화를 가져올 전망입니다. 예전부터 AI/HPC 부문에 투자를 많이 해온 금융 기관들은 LLM이란 새로운 가능성 앞세 서 있고, 이를 통해 조직 안팎의 변화를 이끌 것입니다. #유클릭 #NVIDIA #Financial_Transformers #Finformer #금융_특화_LLM #금융_LLM
디지털 트윈 전환을 가속하는 Omniverse Connector
올 초에 NVIDIA는 새로운 Omniverse Connector를 출시했습니다. 이 커넥터를 통해 Siemens Xcelerator 포트폴리오의 Siemens Teamcenter, Siemens NX, Siemens Process Simulate 그리고 Rockwell Automation의 Emulate3D 이 외에도 Blender, Cesium, Unity, Vectorworks와 연계가 더 용이해졌습니다. 이번 포스팅에서는 이 중 NVIDIA와 Siemens의 적극적인 협력이 갖는 의미를 간단히 살펴볼까 합니다. NVIDIA와 Siemens의 협력은 제조 기업이 디지털 트윈 전환에 도움이 될 수 있습니다. NVIDIA의 Omniverse 플랫폼은 디지털 트윈을 생성하고 시뮬레이션할 수 있는 강력하고 확장 가능한 플랫폼을 제공합니다. 디지털 트윈은 물리적 사물 또는 시스템의 가상 복제본입니다. 디지털 트윈은 이러한 사물이나 시스템의 동작을 시뮬레이션하고 실제 환경에서 어떻게 작동할지 예측하는 데 사용할 수 있습니다. 디지털 트윈은 제품 설계를 개선하고 생산 프로세스를 최적화하며 비용을 절감하는 데 사용할 수 있기 때문에 제조 회사에서 점점 더 중요해지고 있습니다. Siemens Xcelerator에 Omniverse를 연계하면 생산 및 제품 라이프사이클 전반에서 생산성과 프로세스 개선을 제공할 수 있는 디지털 트윈 구현을 가속할 수 있습니다. 이를 통해 실제 제품 및 프로세스의 디지털 트윈을 생성하고 이러한 제품 및 프로세스가 실제 세계에서 어떻게 작동하는지 시뮬레이션할 수 있습니다. 조금 더 구체적으로 볼까요. NVIDIA Omniverse를 Siemens Teamcenter, Siemens NX, Siemens Process Simulate와 결합하면 3D CAD 데이터, 시뮬레이션 데이터, 센서 데이터, 운영 데이터 같이 첨단 자동화 환경에서 생성 및 활용되는 정보의 활용 가치를 더 높일 수 있습니다. 이를 이해하려면 커넥터를 이용해 연계할 수 있는 Siemens 솔루션을 알아야 합니다. Siemens Teamcenter: 조직에서 제품 데이터와 프로세스를 관리하는 데 도움이 되는 제품 라이프사이클 관리(PLM) 도구입니다. 팀 간의 협업을 가능하게 하고 3D CAD 데이터, 문서, BOM 및 기타 제품 관련 정보를 관리하는 데 사용할 수 있습니다. 또한 다양한 제품 버전과 구성을 추적하는 데 도움이 됩니다. Siemens NX: 제품 설계, 엔지니어링 및 제조에 사용되는 CAD/CAM/CAE 소프트웨어 솔루션입니다. 복잡한 3D 모델을 만드는 데 특히 유용하며 시뮬레이션 기능도 있습니다. 자동화 시스템에 사용되는 구성 요소를 설계하는 데 사용할 수 있습니다. Siemens Process Simulate: 제조 프로세스를 생성, 최적화 및 검증할 수 있는 디지털 제조 솔루션입니다. 자동화 시스템을 시뮬레이션하고 검증하여 효율적이고 효과적인지 확인할 수 있습니다. 이 도구는 설계 변경이 제조 공정에 어떤 영향을 미치는지 이해하는 데 도움이 됩니다. 이러한 도구를 NVIDIA Omniverse와 통합하면 조직은 자동화 시스템을 설계, 시뮬레이션 및 최적화하기 위한 강력한 생태계 기반을 구축할 수 있습니다. 이러한 도구를 통합하면 워크플로를 간소화하고, 협업을 개선하고, 시뮬레이션을 강화하여 궁극적으로 더 나은 의사 결정과 효율적인 시스템으로 이어질 수 있습니다. 3D CAD 데이터, 시뮬레이션 데이터, 센서 데이터, 운영 데이터를 결합하고 분석하여 각각의 툴을 개별적으로 사용할 때는 얻을 수 없었던 인사이트를 얻을 수 있습니다. 이러한 통합 접근 방식은 오늘날의 복잡한 데이터 기반 자동화 환경에서 필수적라 할 수 있습니다. 더 자세한 내용이 궁금하다면? 유클릭이 도움을 드리겠습니다. #Omniverse_Connector #Siemens_Xcelerator #Siemens_Teamcenter #Siemens_NX #Siemens_Process_Simulate #Rockwell_Automation #Emulate3D #Blender #Cesium #Unity #Vectorworks
엔비디아, 스노우플레이크와 협업이 기업의 Generative AI 전략에 끼치는 영향은?
최근 엔비디아, 스노우플레이크가 생성형 AI 관련해 협업을 한다고 발표하였습니다. 이에 따라 앞으로 대규모 언어 모델(LLM) 개발을 위한 엔비디아 네모(NeMo) 플랫폼과 엔비디아 GPU 가속 컴퓨팅을 통해 스노우플레이크 계정의 데이터를 사용할 수 있게 됩니다. 양사의 협력은 기업의 생성형 AI 투자 전략에 큰 영향을 끼칠 전망입니다. 그 이유는? 바로 데이터에 대한 고민을 해결하기 때문입니다. 스노우플레이크 계정의 데이터를 사용할 수 있다는 것은 기업이 대량의 데이터를 처리할 수 있도록 LLM 모델을 확장할 수 있다는 것을 의미합니다. 이는 고객 서비스 챗봇이나 검색 엔진과 같이 대량의 텍스트를 생성해야 하는 비즈니스에 중요합니다. LLM을 위한 데이터 파이프라인의 중심에 스노우플레이크를 둔다는 것이 갖는 중요한 의미는 바로 ‘이동이 필요 없다는 것’입니다. 데이터를 이동하지 않고 LLM을 생성할 수 있다는 것은 기업이 데이터를 안전하게 유지할 수 있다는 것을 의미합니다. 데이터 파이프라인 간소화는 모델 배포의 민첩성도 높입니다. 스노우플레이크와 NVIDIA NeMo의 조합을 통해 기업은 LLM 모델을 쉽게 생성하고 배포할 수 있습니다. 이를 통해 기업이 생성형 AI에 투자할 가능성이 높아질 것입니다. 조금 더 자세히 알아볼까요. 조직은 교육, 미세 조정, 강화 학습 등을 위해 구축한 NeMo의 실행 에이전트를 스노우플레이크 플랫폼으로 가져와 통합할 수 있습니다. 데이터가 있는 보안이 강화된 스노우플레이크의 환경이 제공하는 Snowpark 컨테이너 서비스를 통해 NeMo의 실행 에이전트를 실행할 수 있다는 것이죠. 통제된 클라우드 기반 환경의 이점이 극대화 된다고 보면 되는데요. 기업은 스노우플레이크 외부로 데이터를 이동하지 않고도 NVIDIA GPU 위에서 컨테이너화된 애플리케이션을 실행할 수 있어 보안과 규제 관련 통제력과 투명성을 높일 수 있습니다. 참고로 Snowpark 컨테이너 서비스는 현재 프리뷰로 제공되고 있습니다. 더 자세한 내용은 스노우플레이크 블로그를 참조 바랍니다. #NVIDIA_NeMo #Snowflake #Snowpark #컨테이너 #생성형AI #GenerativeAI
기업이 Generative AI를 활용하는 세 가지 옵션
생성형 AI(Generative AI) 도입에 대한 고민을 많이 기업들이 하고 있습니다. 이번 포스팅에서는 기업이 고려할 수 있는 생성형 AI 전략을 세 가지 측면에서 간단히 살펴보고자 합니다. 생성형 AI 서비스를 API로 이용하기 파운데이션 모델은 클라우드 기반 서비스로 인프라 투자 없이 이용을 할 수 있습니다. 오픈AI의 ChatGPT, NVIDIA의 AI Foundations 그리고 마이크로소프트나 구글 등의 퍼블릭 클라우드 사업자가 제공하는 서비스를 통해 파운데이션 모델을 이용할 수 있습니다. 이 경우 초기 투자 비용 없이 초거대 모델을 파인튜닝하여 비즈니스 목적에 맞게 활용할 수 있는 이점이 있습니다. 대부분의 서비스는 파운데이션 모델을 더 빠르고 효율적으로 이용할 수 있도록 프롬프트 엔지니어링 및 로우코드/노코드 기반 파인튜닝 도구를 제공합니다. 이런 이유로 인력, 예산 등이 부족한 조직도 초거대 모델을 이용할 수 있습니다. 장점이 큰 반면에 아직도 많은 조직이 보안과 규제 측면에서 우려의 시각을 보내기도 합니다. 기업은 조직원들이 ChatGPT, Bard 같은 서비스를 사용할 경우 질문을 입력하고 답변을 받는 과정 속에서 기업의 중요 정보가 생성형 AI 서비스 제공 기업에 넘어 가는 것을 경계하고 있습니다. 이는 막연한 우려가 아닙니다. 오픈AI 이용 약관을 보면 ChatGPT 성능 향상을 위해 사용자가 입력한 데이터를 사용한다는 문구가 있습니다. 이런 이유로 국내 주요 대기업은 생성형 AI 서비스의 사내 사용을 막는 조치를 발빠르게 취하였습니다. 삼성전자 같은 기업의 경우 자체 생성형 AI 개발을 발표하기도 하였습니다. 실제로 ChatGPT와 Bard는 공개적으로 사용 가능한 정보를 포함할 수 있는 대규모 데이터 세트에 대해 학습됩니다. 모델이 실수로 실제 데이터나 기밀과 유사한 정보를 생성할 수 있다는 우려가 있습니다. 학습 데이터가 익명화되고 민감한 정보가 포함되지 않도록 하기 위해 노력하고 있지만, 의도하지 않은 데이터 유출의 위험은 항상 존재합니다. 또한, ChatGPT와 Bard는 아직 개발 중이며, 공격자가 악용할 수 있는 보안 취약점이 있을 수 있습니다. 이로 인해 공격자는 민감한 데이터에 액세스할 수 있습니다. 사전 학습된 초거대 모델 파인튜닝의 장단점을 정리하면 다음과 같습니다. 직접 구축하기 GPT, BERT, PaLM, LaMDA, DALL-E 같은 파운데이션 모델(Foundation Model)을 NVIDIA SuperPOD 같은 강력한 GPU 기반 컴퓨팅 인프라를 기반으로 직접 훈련과 최적화를 하는 접근법입니다. 파운데이이션 모델을 이용할 경우 비즈니스 목적에 맞게 해야 할 작업들이 매우 많습니다. 이런 이유로 시간과 비용이 많이 듭니다. 이 전략은 예산, 인력 그리고 방대한 내부 데이터를 보유한 조직에게 알맞다고 볼 수 있습니다. 직접 구축할 때 기업이 고려할 수 있는 옵션 중 하나는 NVIDIA NeMo를 이용하는 것입니다. NeMo는 도메인별 데이터에 대해 미세 조정할 수 있는 사전 훈련된 모델 모음을 제공합니다. 이를 통해 조직은 모델을 처음부터 학습시키지 않고도 고유한 요구 사항에 더 잘 맞도록 모델을 사용자 지정할 수 있습니다. NeMo는 모듈식 접근 방식을 따릅니다. 따라서 구성 요소(인코더, 디코더, 언어 모델 등)를 쉽게 교체하여 다양한 아키텍처를 실험하고 특정 작업에 가장 적합한 구성을 찾을 수 있습니다. 다음으로 기업은 NeMo의 데이터 처리 유틸리티를 사용하여 훈련을 위한 자체 데이터 세트를 준비할 수 있습니다. 여기에는 데이터 증강, 기능 추출, 데이터 세트 변환을 위한 도구가 포함되며, 이는 사용자 지정 데이터에서 고품질 모델을 학습하는 데 매우 중요합니다. 훈련 및 미세 조정 역시 기업의 요구를 충실히 담아 내고 있습니다. NeMo는 다양한 훈련 스크립트와 구성 파일을 제공하므로 사용자 지정 데이터 세트에서 모델을 쉽게 훈련할 수 있습니다. 경량화된 초거대 모델 파인튜닝 양질의 데이터를 보유한 경우 파운데이션 모델보다 비즈니스 목표에 맞게 사전 최적화된 경량화된 모델을 이용하는 것이 더 유리합니다. 이런 이유로 최근 많은 조직이 소형 언어 모델(sLLM, small Large Language Model)에 대한 관심이높아지고 있습니다. sLLM은 LLM에 비하여 변수의 수가 적으며 60억(6B) 내지 100억(10B)대를 지칭하는 신조어입니다. sLLM은 훈련을 위한 소요 비용 및 시간 절감이 되며 다른 애플리케이션과 통합하기 쉽습니다. 또한, 기업이 기존 보유한 데이터 활용하여 맞춤형으로 구축하기 수월하여 효율성이 좋다는 이점이 있습니다. 이러한 이유로 기업에서 저마다의 언어 모델과 이를 기반으로 질문 응답 챗봇을 구축할 수 있어 각광받고 있습니다. 간단히 기업이 생성형 AI를 활용하는 방안을 살펴 보았습니다. 더 자세한 내용은 유클릭의 ‘엔터프라이즈를 위한 생성형 AI 전략’ 백서를 참조 바랍니다. 백서를 받고자 하시는 분은 nvidia@uclick.co.kr 또는 아래 채팅 문의를 통해 이메일 주소 남겨 주시면 감사하겠습니다. #생성형AI #GenerativeAI #ChatGPT #Small_LLM #LLM #NVIDIA_NeMo #Foundation_Model #GPT #BERT
공장 자동화, 디지털 트윈 트렌드를 바꾸는 Generative AI & Omniverse
최첨단 공장 디지털화 위해 NVIDIA의 생성형 AI(Generative AI)와 Omniverse를 도입하는 사례가 늘고 있습니다. 관련해 최근 열린 컴퓨텍스에서 NVIDIA는 Foxconn, Pegatron, Quanta, Wistron 등의 사례를 소개하였습니다. 이들 사례를 보면 NVIDIA의 기술이 첨단 공장의 미래를 열어 가고 있다는 것을 잘 알 수 있습니다. 이번 컴퓨텍스 행사에서 소개된 사례에서 언급된 제조의 디지털 전환을 새로운 방향으로 이끄는 NVIDIA의 솔루션은 다음과 같습니다. NVIDIA Omniverse - 생성형 AI를 위한 API 및 첨단 프레임워크 그리고 다양한 설계 및 디자인 앱 연결 NVIDIA Issac Sim - 로봇 시뮬레이션 및 테스트 NVIDIA Metropolis Vision AI - 자동 광학 검사 위 기술을 Foxconn, Pegatron, Quanta, Wistron이 어떻게 활용해 디지털 전환을 하고 있는지 알아보겠습니다. Foxconn은 NVIDIA Metropolis 생태계 파트너와 협력하여 회로 기판 품질 검사 절차의 상당 부분을 자동화하고 있습니다. 이 회사는 NVIDIA Jetson Edge AI 플랫폼을 사용하여 검사 카메라에 AI 모델을 배포하고 있으며, 이를 통해 회로 기판의 결함을 실시간으로 식별합니다. 이를 통해 결함 있는 회로 기판 수를 줄이고 생산 효율성을 개선하고 있습니다. Foxconn은 회로 기판 제조 공정의 여러 단계에서 검사 카메라에 AI 모델을 배포하기 위해 NVIDIA Metropolis를 사용합니다. Pegatron은 회로 기판 제조 공정의 효율성과 품질을 개선하기 위해 NVIDIA의 레퍼런스 워크플로우를 적용하고 있습니다. Pegatron은 NVIDIA의 Omniverse, Isaac Sim 및 Jetstream 플랫폼을 사용하여 디지털 트윈을 만들고, 로봇을 훈련하고, 엣지 디바이스에 AI 모델을 배포하고 있습니다. 이를 통해 Pegatron은 비용을 절감하고 품질을 개선하며 고객의 요구를 충족할 수 있게 었습니다. Quanta는 대만의 다국적 전자제품 위탁 제조 회사입니다. 세계 최대 규모의 전자제품 위탁 생산업체 중 하나로, Apple, Dell, HP 등을 고객사로 두고 있습니다. Techman Robot은 협동 로봇을 개발 및 제조하는 Quanta의 자회사입니다. 협동 로봇은 공유 작업 공간에서 사람과 함께 안전하게 작업하도록 설계되었습니다. Quanta는 제조된 제품의 품질을 검사하는 Techman Robot의 AI 로봇을 사용하고 있습니다. 이 AI 로봇은 로봇 자체에 대한 추론을 위해 NVIDIA AI와 GPU를 사용합니다. 이를 통해 로봇은 사람의 개입 없이도 제품 품질에 대한 실시간 결정을 내릴 수 있습니다. 또한, Techman Robot은 최첨단 협동 로봇을 시뮬레이션, 테스트 및 최적화하는 데 NVIDIA Isaac Sim을 사용하고 있습니다. Isaac Sim은 개발자가 가상 환경에서 로봇을 제작하고 테스트할 수 있는 물리 기반 시뮬레이션 플랫폼입니다. 이를 통해 로봇이 실제 환경에 배치되기 전에 안전하고 효과적인지 확인할 수 있습니다. Wistron은 Autodesk AutoCAD, Autodesk Revit, FlexSim의 입력을 사용하여 자동화된 입고 라인과 운영 건물의 디지털 트윈을 구축하는 데 NVIDIA Omniverse를 사용하고 있습니다. 이를 통해 Wistron은 제조 공정을 시뮬레이션 및 최적화하고, 잠재적인 병목 현상을 파악하고, 효율성을 개선하고 있습니다. 또한, Wistron은 또한 NVIDIA Metropolis를 사용하여 AI 기반 컴퓨터 비전 기술을 사용하여 회로 기판 광학 검사의 일부를 자동화하였습니다. 디지털 트윈을 중심으로 한 제조의 디지털 전환을 준비 중이라면? 생성형 AI와 Omniverse에 주목해야 할 때입니다. 주요 산업별 사례 또는 실제 구축 방법에 대한 문의는 유클릭으로 해주시면 감사하겠습니다. #Foxconn #Innodisk #Pegatron #Quanta #Wistro #Digital_Twin #NVIDIA_Metropolis #NVIDIA_Isaac_Sim #NVIDIA_Omniverse
게임 업계가 더 몰입감 높은 경험을 제공하기 위해 주목하는 차세대 치트키 NVIDIA Omniverse Avatar Cloud Engine for Games
게임 업계도 생성형 Ai(Generative AI) 바람이 불까요? 최근 NVIDIA가 NVIDIA Omniverse Avatar Cloud Engine for Games(이하 ACE for Games)를 공개했습니다. ACE for Games는 게임 개발의 새 장을 열 것으로 기대를 모으고 있습니다. 이름에 나와 있듯이 이 솔루션 제품군은 게임 업계를 위한 NVIDIA Omniverse Avatar Cloud Engine(ACE)이라고 보면 됩니다. 기본적인 특징은 ACE와 다르지 않습니다. ACE는 개발자에게 AI 기반 가상 캐릭터를 제작 및 배포하는 데 필요한 도구와 리소스를 제공하는 클라우드 기반 서비스로 UCF, AI 플랫폼 및 NVIDIA RTX 기술을 기반으로 하는 API 및 맞춤형 마이크로서비스로 구성됩니다. ACE에는 사전 학습된 여러 AI 모델과 개발자가 특정 요구 사항에 맞게 이러한 모델을 커스터마이즈하고 미세 조정할 수 있는 개발 플랫폼이 포함되어 있어 지능형 아바타 개발 시간을 크게 단축할 수 있습니다. ACE는 AI에 대한 사전 경험이 없는 개발자도 쉽게 사용할 수 있도록 설계되었습니다. 이 플랫폼은 개발자가 시작하는 데 도움이 되는 다양한 도구와 리소스를 제공합니다. ACE를 이용해 주로 개발하는 것은 크게 가상 캐릭터, 가상 비서, 챗봇을 꼽을 수 있습니다. ACE를 이용한 개발은 매우 간편합니다. ACE는 로우 코드 프레임워크인 UCF(Unified Compute Framewokr)를 기반으로 합니다. 따라서 개발 경험이 많지 않더라도 클라우드 네이티브, 실시간 및 멀티모달 AI 애플리케이션 개발에 도전할 수 있습니다. 다시 본론으로 돌아와 ACE for Games 공개가 갖는 의미를 좀 짚어 보겠습니다. ACE도 게임용 캐릭터 개발이 가능한 솔루션인데 굳이 ACE for Games라고 따로 카테고리를 나눈 이유는 무엇일까요? 아마 생성형 AI를 강조하기 위함이 아닐까 싶습니다. ACE for Games는 게임을 비롯한 다양한 애플리케이션을 위한 고품질 인터랙티브 아바타를 제작하는 데 사용할 수 있습니다. 개발자는 ACE for Games와 생성형 AI를 결합하여 사실적이고 표현력이 풍부한 아바타를 만들 수 있습니다. 예를 들어 생성형 AI를 사용하여 사실적인 얼굴 표정, 신체 움직임, 심지어 목소리까지 생성할 수 있습니다. 이를 통해 게이머가 더욱 사실적이고 몰입할 수 있는 아바타를 만들 수 있습니다. ACE for Games는 생성형 AI 외에도 음성 인식 및 자연어 처리와 같은 다른 AI 기술과 함께 사용할 수 있습니다. 이를 통해 사람의 입력을 이해하고 이에 반응할 수 있는 아바타를 만들 수 있습니다. 예를 들어 아바타는 고객 서비스를 제공하거나 게임에서 게이머의 작업을 도와주는 데 사용될 수 있습니다. 이런 가능성은 ACE for Games를 구성하는 솔루션 포트폴리오를 보면 어렵지 않게 상상할 수 있습니다. NVIDIA NeMo: 조직이 보유한 데이터를 사용해 최적화를 할 수 있는 사전 훈련된 초거대 언어 모델 기반 솔루션입니다. 게임 기업은 게임 캐릭터 특징과 역할에 맞게 사전 정의를 할 수 있습니다. NeMo Guardrails를 통해 폭력적이거나, 비윤리적인거나, 안전하지 않은 대화로부터 게임 사용자를 보호할 수 있습니다. NVIDIA RIVA: 실시간 음성 대화를 가능하게 하는 자동 음성 인식 및 텍스트 음성 변환을 지원하는 솔루션입니다. NVIDIA Ominverse Audio2Face: 모든 음성 트랙과 일치하도록 게임 캐릭터의 표현력이 풍부한 얼굴 애니메이션을 즉시 생성하는 솔루션입니다. 위 요소는 전체를 사용할 수도 있고 일부만 필요에 맞게 쓸 수도 있습니다. 현재 NVIDIA는 여러 게임 업체와 협력 중인데 현재 발표된 사례는 주로 NVIDIA Ominverse Audio2Face를 적용하고 있습니다. GSC Game World: 곧 출시될 게임인 STALKER 2: Heart of Chernobyl 에 Audio2Face를 채택 Fallen Leaf: 화성을 배경으로 하는 3인칭 공상 과학 스릴러인 Fort Solis 의 캐릭터 얼굴 애니메이션에 Audio2Face를 사용 이들 게임은 과연 어떤 새로운 경험을 제공할까요? 사실적인 얼굴 표정, 신체 움직임, 심지어 목소리까지 플레이어에게 더욱 몰입감 있고 매력적인 경험을 제공할 것입니다. #ACE_for_Games #NVIDIA_Omniverse_Avatar_Cloud_Engine #NVIDIA_NeMo #NVIDIA_RIVA #NVIDIA_Ominverse_Audio2Face #생성형_AI #NeMo_Guardrails
세계 최대 규모의 광고 에이전시 중 하나인 WPP가 NVIDIA와 손잡은 이유는?
세계 최대 규모의 광고 에이전시 중 하나인 WPP가 NVIDIA와 손을 잡았습니다. 이 소식은 광고 업계가 생성형 AI를 진지하게 받아들이고 있다는 신호입니다. WPP는 엔비디아의 생성형 AI 기술과 옴니버스 플랫폼을 활용하여 더욱 매력적이고 몰입도 높은 광고 컨텐츠를 만들 수 있을 것으로 기대하고 있습니다. WPP의 계획은 간단 명료합니다. 생성형 AI 기반 엔진을 만들고 여기에 Adobe Substance 3D, Getty Images 등 디자인에 필요한 도구와 리소스를 연계하여 아티스트와 디자이너가 3D 컨텐츠 만들 수 있도록 한다는 것입니다. 이를 실현하기 위해 활용하는 기술은 NVIDIA Picasso 같은 생성형 AI 모델과 옴니버스 클라우드(Omniverse Cloud)입니다. 생성형 AI 기반 엔진은 이미지, 비디오, 텍스트와 같은 컨텐츠 창작을 담당합니다. 그리고 옴니버스 클라우드는 아티스트와 디자이너가 사용하는 도구를 연결하고 작업 데이터를 공유하며 협업을 할 수 있는 공간을 제공합니다. WPP가 구상 중인 엔진이 완성되면 아티스트와 디자이너의 작업 방식은 크게 달라질 전망입니다. 초기 아이디어는 생성형 AI 모델을 통해 만듭니다. 이후 디자인 도구를 이용해 세부 작업을 하고 팀 리뷰나 고객 발표를 할 때는 스트리밍 네트워크인 NVIDIA Graphics Delivery Network를 이용합니다. 이야기가 나온 김에 생성형 AI가 광고 업계의 일하는 방식을 어떻게 바꿀 수 있는지 알아보겠습니다. 가장 먼저 바뀌는 것은 컨텐츠 생성입니다. 생성형 AI 모델은 이미지, 동영상, 텍스트와 같은 새로운 콘텐츠를 생성할 수 있습니다. 예를 들어 광고용 원본 그래픽을 생성하거나 창의적인 광고 문구를 작성하거나 짧은 동영상 클립을 제작할 수 있습니다. 이를 통해 크리에이티브 프로세스의 속도를 크게 높이고 모든 컨텐츠에 대한 디자이너와 카피라이터에 대한 의존도를 줄일 수 있습니다. 컨텐츠의 광고 효과를 테스트 하는 방식에도 생성형 AI는 영향을 끼칩니다. 성형 AI는 광고의 다양한 변형을 생성할 수 있으므로 광범위한 A/B 테스트를 더 쉽게 수행할 수 있습니다. 이를 통해 광고 대행사는 실제 실적을 기반으로 광고를 최적화할 수 있습니다. 캠페인을 확장하는 것도 편리해집니다. 생성형 AI는 대량의 컨텐츠를 빠르게 생성할 수 있으므로 더 많은 잠재 고객에게 도달하거나 여러 플랫폼에서 운영할 수 있도록 광고 캠페인을 쉽게 확장할 수 있습니다. 광고 효과가 높은 컨텐츠를 더 빠르고 효율적으로 만드는 것보다 더 큰 변화는 바로 '개인화'입니다. 에이전시는 생성형 AI와 고객의 선호도 및 행동에 대한 데이터를 결합하여 고도로 개인화된 광고를 만들 수 있습니다. 가령 다양한 인구 통계 또는 개별 사용자에게 어필할 수 있도록 맞춤화된 다양한 버전의 광고를 생성할 수 있습니다. 간단히 예만 들어도 생성형 AI를 안쓸 이유가 없습니다. 하지만 간과해서는 안될 부분이 있습니다. 생성형 AI는 많은 잠재적 이점을 제공하지만 새로운 도전과 윤리적 고려 사항도 제기한다는 점에 유의해야 합니다. #생성형_AI #광고_에이전시_생성형_AI #Omniverse_Cloud #WPP #Getty_Images
NVIDIA MGX로 가속화된 데이터 센터를 더 빠르게 생성
기가바이트, 슈퍼마이크로, ASUS, Pegatron, QCT 등 주요 서버 제조사가 시장의 AI, HPC, Omniverse 워크로드 가속 요구에 더욱 민첩하게 대응할 수 있게 될 전망입니다. NVIDIA는 OEM 파트너를 위해 모듈식 레퍼런스 설계인 NVIDIA MGX를 제공합니다. NVIDIA MGX를 참조하면 OEM 및 ODM 파트너는 x86, Arm CPU, NVIDIA OVX 서버 등 GPU, GPU, DPU의 다양한 조합을 통해 다양한 가속 요구에 민첩하게 대응할 수 있습니다. NVIDIA의 보도자료에 따르면 OEM 및 ODM 파트너는 서버 개발 비용을 최대 3/4까지 줄일 수 있고 개발 시간도 2/3가량 앞당길 수 있다고 합니다. OEM 및 ODM 파트너 NVIDIA MGX 아키텍처를 기초로 GPU, DPU 및 CPU를 조합하여 HPC, 데이터 과학, 대규모 언어 모델, 에지 컴퓨팅, 그래픽 및 비디오, 엔터프라이즈 AI, 설계 및 시뮬레이션과 같은 다양한 워크로드를 가속할 수 있는 맞춤형 시스템을 출시할 수 있습니다. NVIDIA MGX를 활용하면 100개 이상의 시스템 구성이 가능합니다. MGX는 다양한 폼 팩터와 함께 작동하며 다음을 포함하여 현재 및 미래 세대의 NVIDIA 하드웨어와 호환이 가능합니다. 섀시: 1U, 2U, 4U(공랭식 또는 수냉식) GPU: 최신 H100, L40, L4를 포함한 전체 NVIDIA GPU 포트폴리오 CPU: NVIDIA Grace CPU Superchip, GH200 Grace Hopper Superchip, x86 CPU 네트워킹: NVIDIA BlueField -3 DPU, ConnectX -7 네트워크 어댑터 이쯤에서 아마 NVIDIA HGX와의 차이가 궁금할 것입니다. NVIDIA MGX는 NVIDIA의 제품 라인업 및 여러 세대의 제품과 호환성을 보장하는 아키텍처입니다. 따라서 OEM 및 ODM은 재설계 없이 차세대 제품을 출시할 수 있습니다. 반면에 HVIDIA HGX는 NVLink로 연결된 다중 GPU 베이스보드를 기반으로 하여 궁극적인 AI 및 HPC 시스템을 만들기 위한 참조 레퍼런스 아키텍처라는 점이 다릅니다. NVIDIA MGX의 가치는 폭넓은 호환성을 바탕으로 새로운 서버 출시 시간과 비용 절감에만 있지 않습니다. NVIDIA MGX 기반 서버는 클라우드 및 엔터프라이즈 데이터 센터에 쉽게 통합할 수 있다는 점도 큰 이점으로 다가옵니다. NVIDIA MGX는 AI, 머신 러닝 및 기타 까다로운 워크로드에 최적화된 데이터센터를 구축하는 데 사용할 수 있는 포괄적인 하드웨어, 소프트웨어 및 서비스를 제공합니다. 먼저 하드웨어 측면에서 NVIDIA MGX 기반 시스템은 Open Compute Project 및 Electronic Industries Alliance 서버 랙과 호환이 가능합니다. 따라서 엔터프라이즈 및 클라우드 데이터 센터에 빠르게 통합할 수 있습니다. 다음으로 소프트웨어 측면에서 보자면 NVIDIA MGX 기반 시스템은 NVIDIA의 전체 소프트웨어 스택을 지원합니다. 이중 하나가 NVIDIA AI Enterprise입니다. 이 플랫폼은 AI 및 데이터 사이언스를 가속화하기 위한 100개 이상의 프레임워크, 사전 훈련된 모델 및 개발 도구를 제공하는 포괄적인 소프트웨어 환경입니다. 이외에도 유클릭 같은 전문 파트너를 통해 NVIDIA MGX 기반 시스템을 기반으로 하는 데이터센터 설계, 배포, 관리에 대한 컨설팅 및 기술 지원 서비스를 받을 수 있습니다. 참고로 유클릭은 다음과 같은 지원을 제공합니다. 데이터센터 설계 NVIDIA MGX 기반 서버 및 고성능 스토리지 및 네트워킹 구성 요소 설치 NVIDIA AI Enterprise 설치 데이터센터 구성 워크로드 배포 더 자세한 사항은 uDNA 사이트의 채팅 또는 등록폼을 통해 문의 바랍니다. #NVIDIA_MGX #NVIDIA_Grace_CPU #GH200_Grace_Hopper_Superchip #NVIDIA_AI_Enterprise
초거대 언어 모델 기반 서비스 개발을 위한 Full Stack - NVIDIA NeMo Megatron + DGX SuperPOD
최근 KT가 NVIDIA NeMo Megatron 프레임워크와 DGX SuperPOD을 기반으로 초거대 언어 모델인 MI:DEUM을 구축했다는 소식이 들렸습니다. KT가 NVIDIA의 기술을 활용한 이유는? 초거대 언어 모델 관련 시행착오를 최소화하기 위해서입니다. 초거대 언어 모델 프로젝트는 심적으로 물적으로 엄청 부담이 됩니다. 하드웨어부터 소프트웨어까지 전체 기술 스택에 정통하는 것이 불가능에 가깝다 보니 시행착오를 격어야 하는데 이게 큰 부담으로 다가오는 것이죠. NVIDIA가 이런 현실적 어려움을 해결하기 위해 내놓은 해결책이 바로 ‘NVIDIA NeMo Megatron + DGX SuperPOD(또는 BasePOD)’ 조합입니다. 초거대 언어 모델(LLM)을 위한 풀스택이란 바로 이런 것! NVIDIA NeMo Megatron + DGX SuperPOD 조합을 왜 풀스택이라 하는지 간단히 살펴보겠습니다. NeMo Megatron은 초거대 언어 모델 개발 절차를 간소화하고 훈련과 추론 작업을 매우 효율적으로 할 수 있는 단일 코드 베이스의 프레임워크입니다. 모델 훈련과 추론 작업을 하려면 GPU 기반 인프라를 매우 유연하게 활용할 수 있어야 합니다. 이 역할을 맡고 있는 것은 NVIDIA Base Command입니다. 이를 이용하면 컴퓨팅, 스토리지, 네트워킹 등의 자원을 AI 개발자, 데이터 과학자 등의 프로젝트 참여자가 유연하게 활용할 수 있습니다. 초거대 언어 모델이다 보니 엄청난 컴퓨팅 파워가 필요하죠. 이는 NVIDIA DGX SuperPOD이나 BasePOD이 담당합니다. 인프라를 구성하는 모든 장비를 따로 발주 내고 도입해 설치하고 구성하는 수고를 할 필요가 없습니다. 유클릭 같은 NVIDIA 엘리트 파트너의 도움을 받으면 도입 후 바로 프로젝트를 추진할 수 있습니다.이를 단계로 구분하면 다음과 같습니다. 1단계: NVIDIA DGX SuperPOD 또는 DGX BasePOD 인프라와 Base Command Software로 구축한 엔터프라이즈 AI 컴퓨팅 플랫폼 환경에서 NVIDIA NeMo Megatron을 사용해 사내 데이터 또는 사외 데이터를 활용해 초거대 언어 모델을 훈련합니다. 2단계: 다양한 다운스티림 작업을 미세 조정하여 정확보를 확보합니다. 여기에 더해 NeMo Guardrails를 활용해 초거대 언어 모델의 환각 문제를 최소화하여 신뢰성을 확보합니다. 3단계: NVIDIA의 Triton Inference Server를 이용해 추론을 가속합니다. 기술 내재화와 TIme To Market 무엇을 선택할 것인가? NVIDIA의 풀스택을 위와 같이 활용하면 초거대 언어 모델 훈련, 최적화, 추론 작업을 더 빠르게 실행할 수 있습니다. 국내외 유명 기업이 생성형 AI 시대(Generative AI)시대의 패권 경쟁에 뛰어 들기 위해 NVIDIA의 풀스택을 이용하는 이유입니다. 기술 내재화와 시장 진출 시간 단축(Time to Market)! 선택의 문제입니다. 조직의 비즈니스 우선순위나 내부 역량을 고려해 바른 선택을 하는 지혜가 필요한 시기가 된 것 같네요. #초거대_언어_모델 #LLM #KT_LLM_초거대_언어모델 #NVIDIA_DGX_SuperPOD #SuperPOD #BasePOD #Base_Command_Software
초거대 모델 기반 서비스를 기획 중이라면? ‘환각’ 문제 어떻게 해결할 건가요?
ChatGPT 등장 후 기업들은 초거대 언어 모델 기반 서비스가 갖는 파괴력에 주목하고 있습니다. 초거대 언어 모델은 디지털 경제 시대 디지털 상품과 소비자 간의 상호작용 방식을 재정의하고 있습니다. 일각에서는 GUI와 마우스 등장 후 가장 충격적인 인터페이스 혁신이라고도 말하고 있습니다. 많은 기업이 데이터 관련 규제, 보안 등의 이유로 초거대 언어 모델 기반 외부 서비스 및 API 이용을 꺼립니다. 그렇다면 초거대 언어 모델을 비즈니스 목적으로 데이터에 대한 주권을 보장하는 가운데 이용할 수는 없을까요? NVIDIA NeMo를 쓰면 됩니다. NVIDIA NeMo를 통해 내부 데이터를 중심으로 초거대 언어 모델을 이용해 조직 안팎에서 서비스 혁신을 일으킬 수 있습니다. 프라이빗하게 초거대 언어 모델을 쓸 수 있다는 것만으로는 뭔가 개운하지 않죠? 네, 생성형 AI 기술의 문제로 지적되는 ‘환각’에 대한 해결책이 필요합니다. 초거대 언어 모델의 ‘환각’ 문제 언어 모델에서 "환각"은 모델이 주어진 입력에 근거하지 않은 출력을 생성하는 상황을 의미합니다. 기본적으로 모델은 프롬프트에 없거나 제안되지 않은 세부 사항이나 정보를 '환각'합니다. 이는 특히 긴 텍스트 시퀀스를 생성할 때 대규모 언어 모델에서 발생하는 것으로 알려진 문제입니다. 예를 들어 모델에 "고양이가 ~에 앉았다"라는 문장의 연속을 생성하도록 요청하면 다음과 같이 환각이 나타날 수 있습니다: "고양이는 다이아몬드가 박힌 목걸이를 하고 황금색 왕좌에 앉았다."와 같이 말이죠. 여기서 모델은 입력에 의해 암시되지 않은 세부 사항(황금 왕좌, 다이아몬드 박힌 목걸이)을 추가했습니다. 이는 GPT-3 또는 GPT-4와 같은 언어 모델이 앞의 문맥을 기반으로 문장의 다음 단어를 예측하도록 학습되었기 때문에 발생하는 현상입니다. 이러한 모델은 세상을 구체적으로 이해하는 것이 아니라 학습된 데이터에서 패턴과 연관성을 학습합니다. 따라서 그럴듯하게 들리지만 사실에 근거하지 않은 세부 정보나 주장을 포함하는 텍스트를 생성할 수 있습니다. 환각은 부정확하거나 오해의 소지가 있는 정보 생성으로 이어질 수 있기 때문에 중요한 문제입니다. 이는 대규모 언어 모델의 신뢰성과 유용성을 개선하기 위한 AI 연구 분야의 많은 과제 중 하나입니다. NeMo Guardrails의 등장! 초거대 언어 모델의 환각 문제를 기업들이 좀더 쉽게 극복할 수 있도록 NVIDIA에서 새로운 도구를 공개하였습니다. 바로 NeMo Guardrails입니다. NeMo Guardrails는 사용자와 대규모 언어 모델 또는 기타 AI 도구 사이에서 동작하는 도구라 보면 됩니다. 이를 활용하면 초거대 언어 모델이 ‘환각’을 뱉어 내지 않도록 틀린 답변이나 나쁜 프롬프트를 차단합니다. NeMo Guardrails을 통해 기업은 초거대 언어 모델 기반 서비스이 신뢰를 높일 수 있습니다. NeMo Guardrails로 개발자는 세 가지 유형의 경계를 만들 수 있습니다. 원하는 영역 내에서 앱을 유지하기 위한 경계 원하지 않는 언어를 필터링하고 정확한 응답을 보장하기 위한 경계 타사 애플리케이션에 대한 연결을 제한하는 보안 경계 NVIDIA는 이 유용한 도구를 NeMo 프레임워크에 통합하여 초거대 언어 모델 기반 서비스를 준비 중인 기업이 언어 모델을 훈련하고 프롬프트를 미세 조정하는 튜닝 작업을 더 효과적으로 수행할 수 있도록 한다고 합니다. NeMo Guardrails이 궁금하다면? 깃허브 페이지 또는 NVIDIA 사이트를 참조 바랍니다. NVIDIA LunchPad를 이용하면 체험도 가능하다고 합니다. #초거대_언어_모델 #LLM #NeMo_Guardrails #생성형_AI_환각_문제 #NeMo프레임워크 #NVIDIA_LunchPad