사용자가 멀티모달 프롬프트 입력하면 고품질 특수효과(VFX) 생성한국전자통신연구원(ETRI)은 지난 17일 미국 라스베이거스 컨벤션센터에서 열린 국제 방송 장비 전시회 ‘NAB 2026’에 참가, 최신 미디어 지능화 기술 3건을 공개했다.
공개한 기술은 ▲USD 기반 미디어 트랜스포메이션 ▲생성형 AI 기반 VFX 자동 생성 및 합성·편집 ▲AI 기반 UI/UX 접근성 분석 및 대화형 문제해설 에이전트 등이다.
USD 기반 미디어 트랜스포메이션 기술은 기존의 2D 미디어를 분석하여 객체와 배경을 분리하고, 이를 기계가 재현하기 쉬운 생성형 미디어 형식인 USD 기반 3D 에셋으로 자동 변환하는 기술이다. 멀티모달 AI를 통해 미디어 구성요소를 인식하고 2D 좌표를 3D로 변환하여 메타버스 환경에서 실제처럼 재현할 수 있다.

생성형 AI 기반 VFX 자동 생성 및 합성·편집 기술은 사용자가 텍스트, 이미지 등 멀티모달 프롬프트로 의도를 입력하면 AI가 시공간 구성요소를 분석하여 고품질의 특수효과(VFX)를 자동 생성하고 편집하는 기술이다. 영화·드라마 제작에서 시간과 비용이 크게 소요되던 VFX 공정의 효율성을 높일 수 있도록 플러그인 형태로 제공된다.
AI 기반 UI/UX 접근성 분석 및 대화형 문제해설 에이전트 기술은 모바일 앱의 접근성 데이터를 AI가 자동으로 수집·분석하여 장애인이나 노약자가 사용하기 불편한 지점을 찾아내고, 대화형 에이전트가 개발자에게 개선 방안을 제시하는 기술이다.
이 기술은 과학기술정보통신부 △USD 기반 미디어 트랜스포메이션 기술 개발 △AI 기반 UI/UX 접근성 분석 및 대화형 문제해설 에이전트 기술 개발 연구 과제 및 방송미디어통신위원회 △생성형 AI 기반 VFX 자동 생성 및 합성·편집 기술 개발 과제 지원을 받았다.