소프트웨어·컴퓨팅

2024.11.27 10:56

엔비디아, 텍스트만으로 오디오 생성하는 AI 모델 ‘푸가토’ 공개

newsit

https://hwlab.com/SW_Computing/12298 조회 수 545 추천 수 0 댓글 0

Extra Form
참조#1	https://d1qx31qr3h6wln.cloudfront.net/pu...UGATTO.pdf
참조#2	https://www.technologyreview.com/2021/01...mon-sense/

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

- 32개 H100 텐서 코어 GPU 탑재한 엔비디아 DGX 시스템에서 훈련

- 미세 조정과 소량의 데이트 통해 사전 훈련 없이도 작업 처리

- 개별적인 명령어 결합과 세밀한 제어 통해 보다 창의적인 결과물 생성

엔비디아, 텍스트만으로 오디오 생성하는 AI 모델 ‘푸가토’ 공개.jpg

엔비디아가 텍스트만으로 오디오 출력을 제어할 수 있는 생성형 AI 모델 ‘푸가토(Fugatto, Foundational Generative Audio Transformer Opus 1)’를 개발했다고 밝혔다.

엔비디아 생성형 AI 연구팀이 개발한 푸가토는 노래를 작곡하거나 음성을 수정할 수 있는 일부 AI 모델보다 뛰어난 정교함을 자랑하며, 텍스트와 오디오 파일의 조합을 사용해 프롬프트에 설명된 음악과 음성, 사운드의 모든 조합을 생성하거나 변형할 수 있다.

예를 들어, 텍스트 프롬프트에 따라 음악 스니펫(snippet)을 생성하고, 기존 노래에서 악기를 제거하거나 추가하고, 목소리의 억양이나 감정을 바꿀 수 있다. 심지어 이전에 들어본 적 없는 소리를 만들어낼 수도 있다.

멀티 플래티넘 프로듀서이자 작곡가인 이도 즈미슬라니(Ido Zmishlany)는 “이 기술은 정말 대단하다. 사운드는 내 영감의 원천이며 그것이 내가 음악을 만들게 하는 원동력이다. 스튜디오에서 즉석으로 완전히 새로운 사운드를 만들 수 있다는 생각은 정말 놀라운 일”이라고 밝혔다.

사운드에 대한 깊은 이해
엔비디아의 응용 오디오 연구 관리자이자 푸가토를 개발한 라파엘 발레(Rafael Valle)는 “우리는 사람처럼 소리를 이해하고 생성하는 모델을 만들고 싶었다”고 설명하고, "다양한 오디오 생성과 변형 작업을 지원하는 푸가토는 여러 훈련된 능력의 상호 작용에서 나타나는 창발성(emergent property)을 보여주는 최초의 기초 생성형 AI 모델이며, 자유 형식의 지시를 결합할 수 있는 능력도 가지고 있다"고 밝혔다. 또한, 푸가토는 데이터와 모델 규모에 따라 오디오 합성과 변형에서 비지도 멀티태스크 학습이 가능한 미래를 향한 첫걸음”이라고 덧붙였다.

다양한 푸가토 사용 사례
음악 프로듀서들은 푸가토를 사용해 노래에 대한 아이디어를 빠르게 프로토타입으로 만들거나 편집할 수 있으며, 다양한 스타일, 목소리, 악기를 시도해 볼 수 있다. 또한, 효과를 추가하고 기존 트랙의 전체 오디오 품질을 향상시킬 수도 있다.

이도 즈미슬라니는 “음악의 역사는 곧 기술의 역사이기도 하다. 일렉트릭 기타는 로큰롤을 탄생시켰고, 샘플러가 등장하면서 힙합이 태어났다. AI와 함께 우리는 음악의 다음 장을 쓰고 있다. 음악을 만들기 위한 새로운 도구와 새로운 악기가 생겼고, 이는 매우 흥미로운 일”이라고 밝혔다.

광고 대행사는 푸가토를 적용해 기존 캠페인을 여러 지역이나 상황에 맞게 빠르게 조정하고, 음성 해설에 다양한 억양과 감정을 적용할 수 있다. 언어 학습 도구는 사용자가 선택한 목소리를 사용하도록 개인화할 수 있다. 가령, 가족이나 친구의 목소리로 온라인 강의를 들을 수 있다. 비디오 게임 개발자들은 이 모델을 사용해 게임을 플레이하면서 변화하는 동작에 맞게 타이틀에 미리 녹음된 애셋을 수정할 수 있다. 또한, 텍스트 지침과 선택적 오디오 입력을 기반으로 즉석에서 새로운 애셋을 생성할 수도 있다.

즐거운 소음 만들기
라파엘 발레는 “우리가 특히 자랑스럽게 여기는 모델 기능 중 하나는 ‘아보카도 의자’라고 부르는 것”이라고 말하며, 이미지용 생성형 AI 모델이 만든 독특한 비주얼을 언급했다.

예를 들어, 푸가토는 트럼펫에서 강아지 소리를 내게 하거나, 색소폰에서 고양이 소리를 내도록 할 수 있다. 사용자가 묘사할 수 있는 것은 무엇이든 모델이 생성할 수 있다. 연구팀은 미세 조정과 소량의 노래 데이터를 통해 텍스트 프롬프트에서 고품질의 노래 음성을 생성하는 등 사전 훈련되지 않은 작업도 처리할 수 있음을 발견했다.

예술적인 제어 기능 제공

푸가토의 참신함을 더하는 몇 가지 기능이 있다.

푸가토는 추론하는 동안 컴포저블아트(ComposableART)라는 기술을 사용해 훈련 중에 개별적으로만 보였던 명령어를 결합한다. 예를 들어, 프롬프트의 조합으로 ‘슬픈 감정’의 ‘프랑스어 억양으로’ 말하는 텍스트를 요청할 수 있다. 모델의 명령어 간 보간 기능을 통해 사용자는 억양의 강약이나 슬픔의 정도 등과 같은 텍스트 명령어를 세밀하게 제어할 수 있다.

푸가토의 이러한 측면을 설계한 AI 연구원 로한 바들라니(Rohan Badlani)는 “사용자가 주관적이거나 예술적인 방식으로 속성을 조합할 수 있도록 하고, 각 속성을 얼마나 강조할지 선택할 수 있게 하고 싶었다”고 설명하고, “테스트 결과 종종 놀라운 결과가 나왔고, 내가 컴퓨터 과학자이지만 예술가가 된듯한 기분이 들었다”고 밝혔다.

아울러 푸가토는 시간이 지남에 따라 변화하는 소리를 생성하는데, 기능을 시간적 보간(temporal interpolation)이라고 한다. 예를 들어, 천둥소리가 점점 크게 들리다가 점차 멀어지며 지역을 통과하는 폭풍우 소리를 만들 수 있다. 또한 사용자가 사운드스케이프의 진행 방식을 세밀하게 제어할 수 있다. 또한, 노출된 훈련 데이터만 재현할 수 있는 대부분의 모델과 달리, 푸가토를 사용하면 새소리와 함께 새벽녘으로 잦아드는 뇌우와 같이 이전에 들어본 적 없는 사운드스케이프를 만들 수 있다.

푸가토는 연구팀이 음성 모델링, 오디오 보코딩, 오디오 이해와 같은 분야에서 쌓아온 이전 작업을 기반으로 하는 기초 생성형 트랜스포머 모델이다.

정식 버전은 25억 개의 파라미터를 사용하며, 32개의 엔비디아 H100 텐서 코어(Tensor Core) GPU가 탑재된 엔비디아 DGX 시스템을 통해 훈련됐다. 푸가토 제작에는 인도, 브라질, 중국, 요르단, 한국 등 전 세계의 다양한 사람들이 함께했다. 이들의 협업으로 푸가토의 다중 억양과 다국어 기능이 더욱 강화됐다.

이 작업에서 가장 어려운 부분 중 하나는 훈련에 사용된 수백만 개의 오디오 샘플로 구성된 혼합 데이터 세트를 생성하는 것이었다. 연구팀은 데이터와 지침을 생성하기 위해 다각적인 전략을 사용했다. 이를 통해 모델이 수행할 수 있는 작업의 범위를 크게 확장하는 동시에, 더 정확한 성능을 달성하고 추가 데이터 없이도 새로운 작업을 수행할 수 있게 했다.

아울러 기존 데이터 세트를 면밀히 분석해 데이터 간의 새로운 관계를 밝혀냈다. 전체 작업은 1년 이상이 소요됐다.

#엔비디아#푸가토#AI#

Facebook Twitter Google Pinterest KakaoStory Band

Atachment
첨부 '1'	엔비디아, 텍스트만으로 오디오 생성하는 AI 모델 ‘푸가토’ 공개.jpg,

위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

✔댓글 쓰기

에디터 선택하기

✔ 텍스트 모드 ✔ 에디터 모드

댓글 쓰기

에디터 사용하기 닫기

소프트웨어·컴퓨팅

List of Articles
번호	제목	글쓴이	날짜	조회 수
1464	[CES 2025] 위로보틱스, 2년 연속 CES 혁신상 수상…“보행보조 웨어러블 로봇 미국 시장 진출 정조준” 웨어러블 로봇 리딩기업 위로보틱스가 미국 라스베이거스에서 열리는 세계 최대 가전·IT 전시회 ‘CES 2025′에 참가해 ‘1인 1로봇시대’에 발맞춰 웨어러블 로봇 ‘...	newsit	2025.01.07	580
1463	쿤텍, 한국항공우주산업(KAI) FA-50 FLCC 시뮬레이터 개발 사업 수주 - 전가상화(Level 4) 기술 통해 항공우주 분야의 효율적인 디지털 전환 지원 쿤텍이 원전 디지털 트윈 성공 사례 확보에 이어 산업통산자원부에서 지원하고 한국...	newsit	2025.01.07	488
1462	사이냅소프트, AI 문서 분석 솔루션 '사이냅 도큐애널라이저' 고도화 - PPTX 및 문서내 이미지 추출, 차트/도형/수식 지원 등 다양한 기능 추가 - 정확한 문서구조 분석으로 데이터 품질 향상, LLM구축 지원 사이냅소프트는 문서분석...	newsit	2024.12.27	486
1461	슈나이더 일렉트릭, AI 에너지 및 지속 가능성 문제 해결 위한 엔비디아 협력 솔루션 발표 - 고밀도 AI 클러스터 지원을 위한 액체 냉각 기반 엔비디아 협력 데이터센터 레퍼런스 디자인 공개 - 재생 가능 에너지 확보 및 현장 발전 최적화, 데이터센터 ...	newsit	2024.12.26	515
1460	메이머스트, 70억원 규모 프리IPO 투자 유치 - 인공지능(AI), 데스크톱 가상화(VDI) 및 모바일가상화(VMI) 솔루션, 클라우드 기반 주요 사업 강화 AI 및 클라우드 보안 전문기업 메이머스트는 오늘 70억 원 ...	newsit	2024.12.26	460
1459	카테노이드, 아리랑국제방송 온라인 라이브 스트리밍 품질 향상…“시청자 경험 개선” - 국가 및 지역별 네트워크 최적화, CDN 맵 분리로 캐시 히트율 향상 - QoE 시스템 도입을 통한 안정적 서비스 운영 환경 제공 - 약 430개 글로벌 방송사 및 해외...	newsit	2024.12.26	384
1458	슈나이더 일렉트릭 코리아, 권지웅 신임 대표 선임…”IT·에너지 산업 전문가의 혁신적 리더십 기대“ 슈나이더 일렉트릭 코리아가 2025년 1월 1일부로 권지웅 현 전력 사업부 부사장을 신임 대표로 선임한다고 밝혔다. 권지웅 신임 대표는 2018년 슈나이더 일렉트릭...	newsit	2024.12.23	412
1457	세일즈포스, 2024년 사이버 위크 글로벌 쇼핑 데이터 분석 발표…“사상 최대 3,149억 달러 매출 기록... AI가 600억 달러 매출 견인” - 모바일·소셜 커머스가 새로운 쇼핑 트렌드 주도... 전년 대비 매출 6% 성장 - AI 활용 기업 구매 전환율 2% 높아... 고객 서비스 참여도 38% 증가 - 중국발 가...	newsit	2024.12.23	375
1456	캐논코리아, 여성가족부 '가족친화 우수기업' 재인증 획득 - 2016년 신규 인증 취득 후, 재인증 위한 평가 거쳐 4회 연속 ‘가족친화 우수기업’으로 인증 - 유연근무제, 효친휴가제, 리프레시 휴가제 등 직원들의 워크라이...	newsit	2024.12.23	545
1455	유아이패스, 2025년 AI 및 자동화 트렌드 발표 - 사람, 로봇, 에이전트 간의 조화로운 협업 촉진할 AI 및 자동화 기반 직장 생태계 구축 유아이패스는 오늘 2025년 AI와 자동화 분야의 발전을 이끌 핵심 트렌드...	newsit	2024.12.23	630

태그 쓰기

데이터이쿠, APJ 총괄에 앤드류 보이드 선임…기업 AI ...	03-31
ST, 중국서 STM32 양산… 40nm eNVM 기반 이중 공급망 구축	03-31
F5, ADSP에 통합 가시성·Agentic AI·양자내성암호 적용...	03-31
스틸시리즈, 붉은사막 스팀 코드 번들…아크티스·에이펙...	03-31
샥즈, 오픈 이어 노이즈 리덕션 적용 ‘오픈핏 프로’ 출시	03-31
넷앱·컴볼트, 사이버 복원력 협력…ONTAP·위협 인지 복...	03-30
티오리-아톤, AI 보안 협력 체결… RSAC 2026서 LLM 기...	03-30
HPE, 첫 사이버 위협 보고서 발표… 자동화 공격 인프라...	03-30
로지텍, 포켓몬 ‘메타몽’ 에디션 키보드·마우스 굿즈 ...	03-30
카스퍼스키, AV-Comparatives OT 보안 인증 획득… KIC...	03-30