무궁무진한 가치를 지닌 영상 데이터를 기계가 이해할 수 있는 방법이 없습니다.
사람은 세상을 이해하기 위해 여러가지 정보를 같이 사용합니다. 귀를 통해 들려오는 음성, 눈을 통해 보이는 시각적 요소, 사람과 사람간의 의사소통에 쓰이는 문장 등. 또한 이러한 정보들을 단순히 각각의 해석으로 그치는 것이 아닌 정보의 조합을 통해 세상을 바라보고 이해합니다. 그렇기 때문에 이 모든 요소를 가지고 있는 영상은 교육, 업무, 엔터테인먼트, 보안 등 모든 방면에서 우리의 삶과 이야기를 온전하게 담아낼 수 있는 완전한 데이터입니다.
이러한 특성으로 오늘 전세계 모든 데이터의 80%는 영상이며, Z세대는 깨어있는 시간의 1/3을 영상을 통해 세상과 교류합니다. 수많은 영상의 범람 속에서 원하는 영상, 특히 영상 내 구체적인 장면을 찾는 것은 어렵습니다. 문서에서는 Ctrl+F를 통해 원하는 단어와 문장을 빠르게 찾을 수 있는 반면, 영상에서는 영상의 길이만큼 스크롤을 직접 넘기면서 일일이 장면을 찾아야 하는 상황입니다. 이는 영상을 시청하는 사람, 콘텐츠를 제작하는 편집자 혹은 인플루언서, 그리고 영상을 통해 자신들의 브랜드와 제품 등을 홍보해야 하는 기업 모두가 겪는 문제입니다. 골치 아픈걸 넘어서서, 방대한 양의 데이터가 그저 보관만 될 뿐, 아무런 가치도 만들어내지 못합니다.
그렇다면 영상을 인간을 넘어 기계가 해석하고 이해할 수 있게 하려면 어떻게 해야할까요?
아쉽게도 기존의 이미지나 텍스트를 다루던 방식을 그대로 사용해서는 영상을 완벽히 이해할 수 없습니다. 이미지와 달리 시간적, 문맥적 요소를 담고 있고, 텍스트와 달리 공간적, 시각적 요소를 동시에 지니고 있기 때문입니다. 기계 입장에서는 데이터가 구성되어있는 방식에 따라 해석하는 방법이 정해지는데, 다양한 형태의 데이터를 함축하고 있는 영상의 경우 각 데이터 마다 성질에 맞는 해석을 필요로하고 그 해석을 조화롭게 융화해야 하기 때문에 더더욱 어려운 일입니다.
또한 전세계 모든 데이터의 80%가 영상이라는 것은 영상이 중요한 데이터임을 나타내기도 하지만, 무거운 데이터라는 뜻이기도 합니다. 많은 정보를 지니고 있기에 원치 않는 불필요한 데이터도 상당히 많이 내포하고 있다는 것을 의미합니다. 마치 금을 얻기 위해 커다란 산을 파헤치는 것처럼 영상에서 소중한 정보를 얻기 위해서는 많은 가공을 필요로 합니다.
영상이 주는 가치는 절대 작지 않습니다. 그렇기 때문에 우리는 이러한 영상 데이터를 기계가 이해할 수 있도록, 개발자들이 쓰기 쉽게 서비스를 제공합니다. 트웰브랩스는 이들이 수백, 수천 시간의 데이터베이스 속에서도 빠르고, 정교하게 영상 내 원하는 내용을 찾을 수 있도록 하는 영상을 위한 Ctrl+F를 만들고 있습니다. 우리는 검색을 시작으로 하여 하이라이트 자동 생성, 추천 엔진, 요약 등 영상과 관련된 모든 무한한 가능성을 제공하는 것을 목표로 하고 있습니다.