top of page

AI와 첨단 분석의 발목을 잡는 것은? 너무 길고, 효율적이지 못한 데이터 준비 작업!

인공 지능과 첨단 분석의 중요성이 커지면서 새롭게 관심을 끄는 분야가 있습니다. 바로 데이터 시각화, 각종 통계 및 분석, 머신 러닝을 위한 데이터 준비(Data preparation) 관련 도구입니다. 전통적으로 데이터 분석가나 개발자는 IT 부서 도움을 받아 데이터 준비 작업을 했습니다. IT 부서는 요구받은 데이터 세트를 ETL 작업을 열심히 해서 전달하죠. 데이터를 다루는 사용자와 서비스/애플리케이션이 많지 않았던 시절에는 이런 식의 작업에 불편함이 없었습니다. 하지만 지금은 좀 다르죠. 데이터 준비 작업에 대한 모든 현업 부서 사용자, 데이터 과학자, 개발자의 요구를 전통적인 방식으로 하면 IT 부서의 업무가 마비될 수 있습니다. 관련해 셀프서비스 방식으로 사용자가 직접 데이터 준비 작업을 하는 것에 대한 이야기도 많았죠. 하지만 이 역시 한계가 있다 보니 최근에는 머신 러닝 기반으로 데이터 준비 작업을 최적화해주는 솔루션까지 등장하고 있습니다. 이런 솔루션의 등장 이유는 어설프게 데이터 사전 작업을 할 경우 그 결과가 분석과 머신 러닝 프로젝트의 품질에 큰 영향을 끼치기 때문입니다.


정작 중요한 일에 쓸 시간은 없고, 데이터 준비에 턱없이 많은 시간을 허비하는 현실


관련해 데이터 준비 관련 솔루션 전문 기업인 Trifacta가 흥미로운 설문 조사 결과를 발표했습니다. 결론을 말하자면 어설픈 데이터 준비 과정을 거쳐 마련한 데이터 세트는 분석과 머신 러닝 프로젝트의 발목을 잡는다는 것입니다. 이 속에 담긴 의미는 데이터 과학자, 분석가, 개발자는 단순 반복적이고 시간을 많이 허비하는 데이터 준비 작업에 너무 많은 시간을 쓴다는 것입니다. 정작 중요한 일에 쓸 시간을 데이터 준비하느라 허비한다는 것이죠. 그리고 많은 시간을 쓰지만 제대로 준비 과정을 거치지 않은 낮은 품질의 데이터로 인해 프로젝트 지연, 잘못된 결과를 바탕으로 한 의사결정 등의 문제가 생길 수 있는 것도 발목을 잡는 포인트입니다.

설문은 총 646명의 데이터 전문가를 대상으로 이루어졌습니다. 주요 내용을 보자면 응답자 중 46%가 AI, 머신 러닝 관련 데이터 준비에 일 단위로 10시간 이상, 주 단위로 40시간 이상을 쓴다고 답했습니다. 또한, 59%의 응답자가 품질이 낮은 데이터 세트로 인해 수요를 잘못 예측한 적이 있고, 26%가 타깃을 잘못 잡은 적이 있다고 답했습니다. 데이터에서 중요한 통찰력을 확보하는 것이 아니라 잘못된 방향으로 조직을 이끄는 우를 범할 수도 있다는 생각이 드는 대목이네요. AI, 머신 러닝, 첨단 분석을 위해 준비한 데이터의 품질에 확신을 갖고 있는 조직은 얼마나 될까요? Trifacta의 조사의 경우 75%가 데이터 품질에 확신이 없다고 답을 했습니다. 데이터 품질은 프로젝트에 직간접적으로 영향을 끼칩니다. 응답자 중 38%는 낮은 품질의 데이터로 인해 프로젝트 지연으로 이어진다고 답했고, 36%는 원하는 결과에 다다르는 데 실패하게 되는 이유가 된다고 응답했습니다.


데이터 준비가 문제라면? 이를 해결하는 솔루션이 있지 않을까?


Trifacta의 설문 조사는 자사 솔루션과 기술의 필요성을 어필하기 위한 목적으로 수행된 것입니다. 하지만 억지스럽지 않습니다. 모두가 공감하는 그런 결과가 나왔으니 말이죠. 그렇다면 이런 문제를 Trifacta는 어떻게 풀어 내고 있을까요?

Trifacta는 자사의 기술을 데이터 준비라고 하지 않고 'Data Wrangling'이라고 표현합니다. 그 내용을 보면 데이터 탐색(Discovering), 구조화(Structuring), 정제(Cleaning), 보강(Enrhching), 유효성 검사(Validating), 퍼블리싱(Publising)을 머신 러닝 기반으로 최적화해주는 것입니다. 네, 데이터 준비인데 데이터베이스, 빅 데이터, API 연계 등 다양한 원천에서 데이터를 가져와 준비 작업을 처리하여 높은 품질의 최종 데이터 세트를 머신 러닝, 데이터 분석 등에 활용할 수 있도록 돕습니다.



이상으로 간단히 데이터 준비 관련 현업 관계자들의 고충이 무엇인지? 이를 풀기 위해 등장한 솔루션은 무엇을 차별점으로 내세우는지 간단히 살펴보았습니다. 더 자세한 내용은 Trifacta 페이지를 참조 바랍니다.



조회수 27회댓글 0개
bottom of page