Chang Sun Park
- 2023년 5월 1일
- 2분 분량

초거대 모델 기반 서비스를 기획 중이라면? ‘환각’ 문제 어떻게 해결할 건가요?

ChatGPT 등장 후 기업들은 초거대 언어 모델 기반 서비스가 갖는 파괴력에 주목하고 있습니다. 초거대 언어 모델은 디지털 경제 시대 디지털 상품과 소비자 간의 상호작용 방식을 재정의하고 있습니다. 일각에서는 GUI와 마우스 등장 후 가장 충격적인 인터페이스 혁신이라고도 말하고 있습니다.

많은 기업이 데이터 관련 규제, 보안 등의 이유로 초거대 언어 모델 기반 외부 서비스 및 API 이용을 꺼립니다. 그렇다면 초거대 언어 모델을 비즈니스 목적으로 데이터에 대한 주권을 보장하는 가운데 이용할 수는 없을까요? NVIDIA NeMo를 쓰면 됩니다. NVIDIA NeMo를 통해 내부 데이터를 중심으로 초거대 언어 모델을 이용해 조직 안팎에서 서비스 혁신을 일으킬 수 있습니다.

프라이빗하게 초거대 언어 모델을 쓸 수 있다는 것만으로는 뭔가 개운하지 않죠? 네, 생성형 AI 기술의 문제로 지적되는 ‘환각’에 대한 해결책이 필요합니다.

초거대 언어 모델의 ‘환각’ 문제

언어 모델에서 "환각"은 모델이 주어진 입력에 근거하지 않은 출력을 생성하는 상황을 의미합니다. 기본적으로 모델은 프롬프트에 없거나 제안되지 않은 세부 사항이나 정보를 '환각'합니다. 이는 특히 긴 텍스트 시퀀스를 생성할 때 대규모 언어 모델에서 발생하는 것으로 알려진 문제입니다.

예를 들어 모델에 "고양이가 ~에 앉았다"라는 문장의 연속을 생성하도록 요청하면 다음과 같이 환각이 나타날 수 있습니다: "고양이는 다이아몬드가 박힌 목걸이를 하고 황금색 왕좌에 앉았다."와 같이 말이죠. 여기서 모델은 입력에 의해 암시되지 않은 세부 사항(황금 왕좌, 다이아몬드 박힌 목걸이)을 추가했습니다.

이는 GPT-3 또는 GPT-4와 같은 언어 모델이 앞의 문맥을 기반으로 문장의 다음 단어를 예측하도록 학습되었기 때문에 발생하는 현상입니다. 이러한 모델은 세상을 구체적으로 이해하는 것이 아니라 학습된 데이터에서 패턴과 연관성을 학습합니다. 따라서 그럴듯하게 들리지만 사실에 근거하지 않은 세부 정보나 주장을 포함하는 텍스트를 생성할 수 있습니다.

환각은 부정확하거나 오해의 소지가 있는 정보 생성으로 이어질 수 있기 때문에 중요한 문제입니다. 이는 대규모 언어 모델의 신뢰성과 유용성을 개선하기 위한 AI 연구 분야의 많은 과제 중 하나입니다.

NeMo Guardrails의 등장!

초거대 언어 모델의 환각 문제를 기업들이 좀더 쉽게 극복할 수 있도록 NVIDIA에서 새로운 도구를 공개하였습니다. 바로 NeMo Guardrails입니다. NeMo Guardrails는 사용자와 대규모 언어 모델 또는 기타 AI 도구 사이에서 동작하는 도구라 보면 됩니다. 이를 활용하면 초거대 언어 모델이 ‘환각’을 뱉어 내지 않도록 틀린 답변이나 나쁜 프롬프트를 차단합니다.

NeMo Guardrails을 통해 기업은 초거대 언어 모델 기반 서비스이 신뢰를 높일 수 있습니다. NeMo Guardrails로 개발자는 세 가지 유형의 경계를 만들 수 있습니다.

원하는 영역 내에서 앱을 유지하기 위한 경계
원하지 않는 언어를 필터링하고 정확한 응답을 보장하기 위한 경계
타사 애플리케이션에 대한 연결을 제한하는 보안 경계

NVIDIA는 이 유용한 도구를 NeMo 프레임워크에 통합하여 초거대 언어 모델 기반 서비스를 준비 중인 기업이 언어 모델을 훈련하고 프롬프트를 미세 조정하는 튜닝 작업을 더 효과적으로 수행할 수 있도록 한다고 합니다.

NeMo Guardrails이 궁금하다면? 깃허브 페이지 또는 NVIDIA 사이트를 참조 바랍니다. NVIDIA LunchPad를 이용하면 체험도 가능하다고 합니다.

#초거대_언어_모델 #LLM #NeMo_Guardrails #생성형_AI_환각_문제 #NeMo프레임워크 #NVIDIA_LunchPad

초거대 모델 기반 서비스를 기획 중이라면? ‘환각’ 문제 어떻게 해결할 건가요?

최근 게시물