기존 레이크플로·도큐먼트 인텔리전스 결합 형태…"기술 파편화 극복"데이터브릭스가 기업 문서 속 비정형 데이터를 자동 수집·분석하는 인공지능(AI) 플랫폼을 공개했다.
19일 IT 업계에 따르면 데이터브릭스는 PDF 문서나 이미지 등에 묻혀 있던 비정형 정보를 실제 비즈니스에 활용 가능한 형태로 변환하는 솔루션을 내놨다.
해당 플랫폼은 기존 데이터브릭스 '레이크플로'와 '도큐먼트 인텔리전스'를 결합한 문서 처리 체계다.

레이크플로는 통합 데이터 엔지니어링 솔루션이다. 기업 내 다양한 시스템에 흩어진 데이터를 자동으로 수집하고 처리하며 파이프라인을 구성하는 역할을 한다.
도큐먼트 인텔리전스는 비정형 문서를 이해하고 구조화하는 AI 기능이다. PDF나 이미지 손 글씨 등 복잡한 문서를 분석한다. 이를 통해 계약 정보 금액 등 핵심 데이터를 자동으로 추출한다.
현재 기업 데이터 약 80%는 PDF나 이미지, 오피스 문서 형태로 존재한다. 이 데이터는 검색이나 분석이 어려워 사실상 활용되지 못했다.
그동안 기업은 광학문자인식(OCR)이나 자연어처리(NLP) 기술을 따로 연결해 문서 속 비정형 데이터를 처리해 왔다. 이 방식은 정확도가 낮고 관리도 어려워 기업 AI 도입에 걸림돌로 지적돼 왔다.

데이터브릭스는 '레이크플로 커넥트'를 통해 문서를 자동으로 가져오는 기능을 제공한다. 이 기능은 쉐어포인트나 구글 드라이브 등에 있는 문서를 별도 설정 없이 연결해 바로 데이터로 쓸 수 있게 돕는다.
이후 도큐먼트 인텔리전스가 문서를 읽고 이해하는 역할을 맡는다. 스캔 이미지나 손글씨 같은 복잡한 문서도 구조화해 계약 날짜, 금액, 거래처 정보 등을 자동 추출한다.
여기서 '레이크플로 잡스'가 문서 수집부터 분석까지 전 과정을 한 흐름으로 처리한다. 일부 작업이 실패해도 해당 부분만 다시 처리할 수 있어 운영 부담도 줄였다.
이 과정에서 유니티 카탈로그를 기반으로 데이터 접근 권한과 이력 관리가 적용된다. AI는 기업 내부 데이터 맥락을 반영해 더 정확하게 문서를 해석하고 활용할 수 있다.
크레이그 와일리 AI 제품 총괄은 "문서마다 별도 AI 아키텍처를 만들 필요가 크게 줄어든다"며 "이 제품은 내부에서 가장 높게 평가받고 있다"고 링크드인에서 밝혔다.