- 트웰브랩스, 자연어 사용해 영상 검색 가능케 해…가장 방대한 데이터 소스인 영상을 접근 가능한 정보 소스로 탈바꿈
- 대화형 쿼리 통해 수십 년 분량 영상 아카이브에서 특정 영화 장면을 찾거나 운동선수들의 경기 영상을 평가 가능
- 트웰브랩스, AWS 사용해 멀티모달 기반 모델 훈련 속도 최대 10% 높이고 훈련 비용 15% 이상 절감

아마존웹서비스(AWS)가 AWS 리인벤트(re:Invent)에서 멀티모달 인공지능(AI)을 사용해 영상 콘텐츠에 인간과 같은 이해를 제공하는 스타트업 트웰브랩스(Twelve Labs)가 AWS에서 자체 기반 모델을 구축하고 확장하고 있다고 발표했다.
트웰브랩스는 AWS 기술을 사용해 자연어를 영상 내부에서 일어나는 일에 매핑하는 기반 모델의 개발을 가속화할 예정이다. 여기에는 동작, 객체, 배경 소리가 포함되어 개발자가 영상 검색, 장면 분류, 요약, 영상 클립 챕터 구분이 가능한 애플리케이션을 만들 수 있다.
영상의 모든 순간이나 프레임을 정확히 찾아내는 애플리케이션 제작
개발자는 AWS 마켓플레이스(AWS Marketplace)에서 사용 가능한 기반 모델을 통해 의미론적 영상 검색 및 텍스트 생성을 위한 애플리케이션을 만들 수 있으며, 이는 대량의 영상에 의존하는 미디어, 엔터테인먼트, 게임, 스포츠 및 기타 산업에 서비스를 제공한다.
예를 들어, 스포츠 리그는 이 기술을 사용해 방대한 경기 영상 라이브러리를 카탈로그화하는 과정을 간소화해 실시간 방송을 위한 특정 프레임을 더 쉽게 검색할 수 있다. 코치들은 이러한 기반 모델을 사용해 수영 선수의 스트로크 기술이나 단거리 선수의 출발 블록 자세를 분석하고, 조정해 나은 성과를 도출할 수 있다. 또한, 미디어 및 엔터테인먼트 회사들은 트웰브랩스 기술을 사용해 각 시청자의 관심사에 맞춘 TV 프로그램의 하이라이트 영상을 제작할 수 있다. 예시로, 좋아하는 배우가 출연하는 스릴러 시리즈의 모든 액션 시퀀스를 편집 할 수 있다.
이재성 트웰브랩스 공동 창업자이자 CEO는 "트웰브랩스는 개발자들이 애플리케이션에 멀티모달 인텔리전스를 구축할 수 있도록 돕는다는 비전을 바탕으로 설립됐다. 세계 데이터의 약 80%가 영상 형태이지만, 대부분은 검색이 불가능하다. 이제 우리는 이 문제를 해결하고, 인간이 주변 세계를 보고, 듣고, 이해하는 방식과 유사하게 맥락에 맞는 영상을 통해 생생한 경험을 제공할 수 있게 됐다“고 밝혔다.
또한, "AWS는 우리에게 멀티모달 AI의 과제를 해결하고 영상을 더 접근 가능하게 만들 수 있는 컴퓨팅 파워와 지원을 제공했으며, 우리가 혁신을 지속하고 전 세계로 확장해 나갈 앞으로의 큰 협력을 기대한다"고 밝히고, "트웰브랩스는 모델 훈련을 가속화하고, 전 세계 수천 명의 개발자들에게 안전하게 솔루션을 제공하며, 컴퓨팅 비용을 통제할 수 있다. 이 모든 것이 생성형 AI를 사용한 영상 이해와 제작의 경계를 넓혀가는 과정에서 이루어진다"고 덧붙였다.
정확하고 통찰력 있는 영상 요약 및 하이라이트 생성
트웰브랩스의 마렝고(Marengo)와 페가수스(Pegasus) 파운데이션 모델은 100개 이상의 언어로 텍스트 요약과 오디오 번역을 제공할 뿐만 아니라, 음성에서 말한 내용을 영상에 표시된 내용과 맞추는 등 단어, 이미지, 소리가 서로 어떻게 관련되는지 분석하는 획기적인 영상 분석을 제공한다. 콘텐츠 제작자는 또한 자연어 검색을 통해 쇼나 게임 내의 정확한 순간, 각도 또는 이벤트에 접근할 수 있다. 예를 들어, 주요 스포츠 리그들은 AWS의 트웰브랩스 기술을 사용해 방대한 미디어 라이브러리에서 자동으로 신속하게 하이라이트 영상을 만들어 시청 경험을 개선하고 팬 참여를 유도한다.
존 존스(Jon Jones)는 AWS 스타트업 부문 부사장 겸 글로벌 책임자는 "트웰브랩스는 클라우드 기술을 통해 방대한 양의 멀티미디어 데이터를 접근 가능하고 유용한 콘텐츠로 전환해 다양한 산업 분야의 개선을 이끌고 있다"고 설명하고, "영상은 지금까지 대부분의 시청자들이 이용할 수 없었던 귀중한 정보로, AWS는 트웰브랩스가 관련성 높은 콘텐츠를 더 잘 이해하고 신속하게 제작하는 데 필요한 도구를 구축할 수 있도록 지원했다”고 밝혔다.
모델 훈련의 가속화 및 비용 절감
트웰브랩스는 아마존 세이지메이커 하이퍼팟(Amazon SageMaker HyperPod)을 사용해 영상, 이미지, 음성, 텍스트와 같은 다양한 데이터 형식을 동시에 이해할 수 있는 기반 모델을 훈련시킨다. 이를 통해 모델은 한 가지 데이터 유형에만 집중하는 다른 AI 모델들에 비해 더 깊은 통찰력을 얻을 수 있다. 훈련 작업은 병렬로 작동하는 여러 AWS 컴퓨팅 인스턴스에 분산되어, 트웰브랩스는 중단 없이 몇 주 또는 몇 달 동안 기반 모델을 훈련시킬 수 있다. 아마존 세이지메이커 하이퍼팟은 AI 모델을 빠르게 가동하고, 성능을 미세 조정하며, 원활하게 운영을 확장하는 데 필요한 모든 것을 제공한다.
AWS의 규모를 활용한 글로벌 확장
3년간의 전략적 협력 계약(SCA)의 일환으로, 트웰브랩스는 AWS와 협력해 고급 영상 이해 기반 모델을 새로운 산업 분야에 배포하고 아마존 세이지메이커 하이퍼팟을 사용해 모델 훈련 능력을 향상시킬 예정이다. 스타트업의 성장을 돕는 프로그램인 AWS 액티베이트(AWS Activate)는 트웰브랩스가 생성형 AI 기술을 전 세계적으로 확장하고 수백 페타바이트의 영상에서 초 단위의 정확도로 더 깊은 통찰력을 얻을 수 있도록 지원했다. 이 지원에는 기계 학습 성능 최적화와 시장 진출 전략 구현을 위한 실무 전문 지식이 포함된다. 또한 AWS 마켓플레이스를 통해 트웰브랩스는 혁신적인 영상 인텔리전스 서비스를 전 세계 고객 기반에 원활하게 제공할 수 있다.
#AWS#트웰브랩스#멀티모달#AI#



