- 32H100 텐서 코어 GPU 탑재한 엔비디아 DGX 시스템에서 훈련

- 미세 조정과 소량의 데이트 통해 사전 훈련 없이도 작업 처리

- 개별적인 명령어 결합과 세밀한 제어 통해 보다 창의적인 결과물 생성

 

엔비디아, 텍스트만으로 오디오 생성하는 AI 모델 ‘푸가토’ 공개.jpg

엔비디아텍스트만으로 오디오 출력을 제어할 수 있는 생성형 AI 모델 ‘푸가토(Fugatto, Foundational Generative Audio Transformer Opus 1)’를 개발했다고 밝혔다.

 

엔비디아 생성형 AI 연구팀이 개발한 푸가토는 노래를 작곡하거나 음성을 수정할 수 있는 일부 AI 모델보다 뛰어난 정교함을 자랑하며, 텍스트와 오디오 파일의 조합을 사용해 프롬프트에 설명된 음악과 음성, 사운드의 모든 조합을 생성하거나 변형할 수 있다.

 

예를 들어, 텍스트 프롬프트에 따라 음악 스니펫(snippet)을 생성하고, 기존 노래에서 악기를 제거하거나 추가하고, 목소리의 억양이나 감정을 바꿀 수 있다. 심지어 이전에 들어본 적 없는 소리를 만들어낼 수도 있다.

 

멀티 플래티넘 프로듀서이자 작곡가인 이도 즈미슬라니(Ido Zmishlany)는  “이 기술은 정말 대단하다. 사운드는 내 영감의 원천이며 그것이 내가 음악을 만들게 하는 원동력이다. 스튜디오에서 즉석으로 완전히 새로운 사운드를 만들 수 있다는 생각은 정말 놀라운 일”이라고 밝혔다.

 

 

사운드에 대한 깊은 이해
엔비디아의 응용 오디오 연구 관리자이자 푸가토를 개발한 라파엘 발레(Rafael Valle)는 “우리는 사람처럼 소리를 이해하고 생성하는 모델을 만들고 싶었다”고 설명하고, "
다양한 오디오 생성과 변형 작업을 지원하는 푸가토는 여러 훈련된 능력의 상호 작용에서 나타나는 창발성(emergent property)을 보여주는 최초의 기초 생성형 AI 모델이며, 자유 형식의 지시를 결합할 수 있는 능력도 가지고 있다"고 밝혔다. 또한,  푸가토는 데이터와 모델 규모에 따라 오디오 합성과 변형에서 비지도 멀티태스크 학습이 가능한 미래를 향한 첫걸음”이라고 덧붙였다. 

 

다양한 푸가토 사용 사례
음악 프로듀서들은 푸가토를 사용해 노래에 대한 아이디어를 빠르게 프로토타입으로 만들거나 편집할 수 있으며, 다양한 스타일, 목소리, 악기를 시도해 볼 수 있다. 또한, 효과를 추가하고 기존 트랙의 전체 오디오 품질을 향상시킬 수도 있다.

 

이도 즈미슬라니는 “음악의 역사는 곧 기술의 역사이기도 하다. 일렉트릭 기타는 로큰롤을 탄생시켰고, 샘플러가 등장하면서 힙합이 태어났다. AI와 함께 우리는 음악의 다음 장을 쓰고 있다. 음악을 만들기 위한 새로운 도구와 새로운 악기가 생겼고, 이는 매우 흥미로운 일”이라고 밝혔다. 

 

광고 대행사는 푸가토를 적용해 기존 캠페인을 여러 지역이나 상황에 맞게 빠르게 조정하고, 음성 해설에 다양한 억양과 감정을 적용할 수 있다. 언어 학습 도구는 사용자가 선택한 목소리를 사용하도록 개인화할 수 있다. 가령, 가족이나 친구의 목소리로 온라인 강의를 들을 수 있다. 비디오 게임 개발자들은 이 모델을 사용해 게임을 플레이하면서 변화하는 동작에 맞게 타이틀에 미리 녹음된 애셋을 수정할 수 있다. 또한, 텍스트 지침과 선택적 오디오 입력을 기반으로 즉석에서 새로운 애셋을 생성할 수도 있다.

 

즐거운 소음 만들기
라파엘 발레는 “우리가 특히 자랑스럽게 여기는 모델 기능 중 하나는 ‘아보카도 의자’라고 부르는 것”이라고 말하며, 이미지용 생성형 AI 모델이 만든 독특한 비주얼을 언급했다. 

 

예를 들어, 푸가토는 트럼펫에서 강아지 소리를 내게 하거나, 색소폰에서 고양이 소리를 내도록 할 수 있다. 사용자가 묘사할 수 있는 것은 무엇이든 모델이 생성할 수 있다. 연구팀은 미세 조정과 소량의 노래 데이터를 통해 텍스트 프롬프트에서 고품질의 노래 음성을 생성하는 등 사전 훈련되지 않은 작업도 처리할 수 있음을 발견했다.

 

예술적인 제어 기능 제공

푸가토의 참신함을 더하는 몇 가지 기능이 있다.

 

푸가토는 추론하는 동안 컴포저블아트(ComposableART)라는 기술을 사용해 훈련 중에 개별적으로만 보였던 명령어를 결합한다. 예를 들어, 프롬프트의 조합으로 ‘슬픈 감정’의 ‘프랑스어 억양으로’ 말하는 텍스트를 요청할 수 있다. 모델의 명령어 간 보간 기능을 통해 사용자는 억양의 강약이나 슬픔의 정도 등과 같은 텍스트 명령어를 세밀하게 제어할 수 있다.

 

푸가토의 이러한 측면을 설계한 AI 연구원 로한 바들라니(Rohan Badlani)는 “사용자가 주관적이거나 예술적인 방식으로 속성을 조합할 수 있도록 하고, 각 속성을 얼마나 강조할지 선택할 수 있게 하고 싶었다”고 설명하고, “테스트 결과 종종 놀라운 결과가 나왔고, 내가 컴퓨터 과학자이지만 예술가가 된듯한 기분이 들었다”고 밝혔다.

 

아울러 푸가토는 시간이 지남에 따라 변화하는 소리를 생성하는데,  기능을 시간적 보간(temporal interpolation)이라고 한다. 예를 들어, 천둥소리가 점점 크게 들리다가 점차 멀어지며 지역을 통과하는 폭풍우 소리를 만들 수 있다. 또한 사용자가 사운드스케이프의 진행 방식을 세밀하게 제어할 수 있다. 또한, 노출된 훈련 데이터만 재현할 수 있는 대부분의 모델과 달리, 푸가토를 사용하면 새소리와 함께 새벽녘으로 잦아드는 뇌우와 같이 이전에 들어본 적 없는 사운드스케이프를 만들 수 있다.

 

푸가토는 연구팀이 음성 모델링, 오디오 보코딩, 오디오 이해와 같은 분야에서 쌓아온 이전 작업을 기반으로 하는 기초 생성형 트랜스포머 모델이다.

 

정식 버전은 25억 개의 파라미터를 사용하며, 32개의 엔비디아 H100 텐서 코어(Tensor Core) GPU가 탑재된 엔비디아 DGX 시스템을 통해 훈련됐다. 푸가토 제작에는 인도, 브라질, 중국, 요르단, 한국 등 전 세계의 다양한 사람들이 함께했다. 이들의 협업으로 푸가토의 다중 억양과 다국어 기능이 더욱 강화됐다.

 

이 작업에서 가장 어려운 부분 중 하나는 훈련에 사용된 수백만 개의 오디오 샘플로 구성된 혼합 데이터 세트를 생성하는 것이었다. 연구팀은 데이터와 지침을 생성하기 위해 다각적인 전략을 사용했다. 이를 통해 모델이 수행할 수 있는 작업의 범위를 크게 확장하는 동시에, 더 정확한 성능을 달성하고 추가 데이터 없이도 새로운 작업을 수행할 수 있게 했다.

 

아울러 기존 데이터 세트를 면밀히 분석해 데이터 간의 새로운 관계를 밝혀냈다. 전체 작업은 1년 이상이 소요됐다.

 

#엔비디아#푸가토#AI#

 

 

?

  1. 팔로알토 네트웍스, 사이버 보안 컨퍼런스 ‘이그나이트 온 투어 부산’ 개최

    - 부산에서 개최된 사이버 보안 연례 컨퍼런스, 180명 이상의 업계 파트너, 고객 및 사이버 보안 전문가와 함께 차세대 사이버 보안 솔루션 및 국내 사이버 보안 트렌드 공유 팔로알토 네트웍스(Palo Alto Networks)는 28일 연례 사이버 보안 컨퍼런스 ‘이그나...
    Date2024.11.29 Bynewsit Views112
    Read More
  2. 마이크로스트레티지 코리아, 건강보험심사평가원 DW 및 OLAP 시스템 활용 사례 발표

    - 건강보험심사평가원, 마이크로스트레티지 OLAP 시스템으로 데이터 기반 업무 혁신 선도 마이크로스트레티지 코리아는 연례 글로벌 행사인 ‘MicroStrategy World Seoul 2024’에서 건강보험심사평가원(HIRA)이 데이터 웨어하우스(DW) 및 마이크로스트레티지 BI...
    Date2024.11.29 Bynewsit Views233
    Read More
  3. 모토로라, 강력한 성능∙합리적 가격의 ‘엣지 50 퓨전’ 국내 출시

    - 6.7인치 PoLED 엣지 디스플레이, 144Hz 화면 주사율로 생생하고 편안한 디스플레이 경험 - 5000mAh 대용량 배터리, 68W 초고속 충전 지원으로 뛰어난 배터리 지속력 자랑 - IP68 방진·방수 설계와 코닝 고릴라 글래스 5 탑재 모토로라코리아가 합리적 가격대...
    Date2024.11.29 Bynewsit Views117
    Read More
  4. [CES 2025] 가민, ‘인리치 메신저 플러스’로 2년 연속 최고혁신상 수상!

    - ‘인리치 메신저 플러스’, CES 2025 ‘모바일 기기, 액세서리 및 앱’ 부문 최고혁신상 수상 - 인터랙티브 통신 기능과 뛰어난 배터리 수명으로 언제 어디서나 비상 상황에 신속 대응 - 1월 7일~12일, 라스베이거스에서 인리치 시리즈와 다양한 분야의 제품 선...
    Date2024.11.29 Bynewsit Views160
    Read More
  5. 딥엘, 음성 번역 솔루션 ‘딥엘 보이스’ 출시…“차세대 LLM에 한국어 추가”

    - 딥엘 첫 음성 번역 솔루션, 딥엘 보이스 포 미팅, 보이스 포 컨버세이션 2개 모델로 개발 - 지난 7월 출시된 차세대 LLM에 한국어 추가… 향상된 번역 품질 제공 딥엘(DeepL)은 28일 그랜드 하얏트 서울에서 딥엘의 첫 음성 번역 솔루션 ‘딥엘 보이스(DeepL V...
    Date2024.11.29 Bynewsit Views266
    Read More
  6. 티머니, TWS 티머니카드 7종 출시…‛TWS 화보집’이 티머니카드로~

    - K팝 보이 그룹 TWS 티머니카드로 GS25 한정 수량 단독 판매 대세 아이돌 ‘TWS(투어스)’의 화보가 티머니카드에 고스란히 담겨 출시된다. 티머니가 K팝 보이 그룹 'TWS(투어스)'의 매력을 담은 한정판 'TWS티머니카드'를 GS25에서 단독 출시한다고 27일 밝혔...
    Date2024.11.27 Bynewsit Views96
    Read More
  7. 엔비디아, 텍스트만으로 오디오 생성하는 AI 모델 ‘푸가토’ 공개

    - 32개 H100 텐서 코어 GPU 탑재한 엔비디아 DGX 시스템에서 훈련 - 미세 조정과 소량의 데이트 통해 사전 훈련 없이도 작업 처리 - 개별적인 명령어 결합과 세밀한 제어 통해 보다 창의적인 결과물 생성 엔비디아가 텍스트만으로 오디오 출력을 제어할 수 있...
    Date2024.11.27 Bynewsit Views398
    Read More
  8. 엑시스, AI 기반 차세대 영상 처리 칩 ‘아트펙(ARTPEC)-9’ 발표

    - AI 기반 분석, 고품질 이미지, 고급 사이버 보안 및 업계 최초 AV1 비디오 인코딩 제공 엑시스커뮤니케이션즈는 오늘, 보안 감시 시스템의 주요 과제를 해결하기 위해 설계된 자체 개발 시스템온칩(SoC) ‘아트펙(ARTPEC)-9’을 발표했다. 이번 9세대 SoC인 AR...
    Date2024.11.27 Bynewsit Views126
    Read More
  9. 한국 듀폰, GPTW코리아 ‘일하기 좋은 기업’ 인증 …“핵심가치를 기반으로 자율적이고 수평적인 기업문화 구현”

    - 킹맘’, ‘시니어’가 일하기 좋은 기업으로도 선정 한국 듀폰이 GPTW코리아(Great Place to Work Korea)로부터 ‘2024 일하기 좋은 기업’ 인증을 획득하고, 특별 부문인 ‘대한민국 여성 워킹맘이 가장 일하기 좋은 기업’과 ‘대한민국 시니어가 가장 일하기 좋은...
    Date2024.11.27 Bynewsit Views327
    Read More
  10. 티맥스티베로, 쌍용레미콘 정보시스템 클라우드 전환 성료

    - 레미콘 제조사 1등급 전사적자원관리(ERP) DB 첫 전환 구축 사례 - 5개월의 개념증명(PoC) 거쳐 시스템 안정화 최종 완료 국내 대표 데이터베이스관리시스템(DBMS) 전문기업 티맥스티베로가 최근 쌍용레미콘의 정보시스템 클라우드 전환 구축 사업을 성공적...
    Date2024.11.27 Bynewsit Views374
    Read More
  11. MSI, 새로운 게이밍기어 라인업 VERSA/FORGE 게이밍 마우스 및 키보드 5종 출시

    - MSI FORGE 및 VERSA 시리즈로 강화된 게이밍 환경 제공 - 무선 게이밍 마우스, 키보드 & 마우스 콤보 등 다양한 구성 엠에스아이코리아는 새로운 게이밍기어 라인업인 MSI VERSA 시리즈와 MSI FORGE 시리즈의 게이밍기어 총 5종을 출시했다고 밝혔다. 새로운...
    Date2024.11.26 Bynewsit Views104
    Read More
  12. No Image

    퓨어스토리지, 엔트리레벨 엔터프라이즈급 스토리지 ‘플래시어레이//C20’ 공개…”플래시어레이 포트폴리오 다각화“

    - 원격 사무실 및 소규모 구축 환경에 적합한 경제적이고 확장 가능한 플래시어레이//C20 - 저용량 환경 및 에지(edge) 워크로드에 맞춤 설계 퓨어스토리지는 ‘플래시어레이//C20’을 선보이며 플래시어레이(FlashArray) 포트폴리오를 확장한다고 밝혔다. 플래...
    Date2024.11.26 Bynewsit Views92
    Read More
  13. 다쏘시스템, 협업으로 임상시험 내 ‘버추얼 트윈’ 사용 가이드 발표

    - 다쏘시스템, FDA와 5년간의 협력 결과물로 더 빠르고 안전한 의료기기 평가 필요성 대응 요구 발맞춰 - 동료 평가 완료, 인실리코(in silico) 임상시험 신뢰성 확립 위한 지침서 역할 - 환자 집단의 특정 측면 정확하게 시뮬레이션하는 버추얼 트윈 통해 임...
    Date2024.11.26 Bynewsit Views350
    Read More
  14. SAS, 2025년 인공지능(AI) 트랜드 발표…“생성형 AI는 더욱 전문화되고 지속가능성 향상”

    - 기업은 클라우드 네이티브의 AI 기반 플랫폼 활용해 실질적인 비즈니스 성과 창출할 것 SAS가 ‘2025년 인공지능(AI) 트랜드 전망’을 발표하고, 최근 몇 년간 AI가 기술 산업의 화두로 주목받아 왔으며, 이러한 흐름은 2025년에도 지속될 것이며, 특히 2025년...
    Date2024.11.26 Bynewsit Views374
    Read More
  15. 한국레노버-구글코리아, 부산에서 ‘에듀 토크 콘서트’ 개최…“교사 역량 강화 지원”

    - 2년 연속 교사 대상 토크 콘서트 열어 - 미래형 교육 환경 위한 구글코리아 공동 프로젝트…부산 소재 중학교 사례 공유 - IT, 교육 분야 등 전문가 4명 초청… 최신 교육 업계 인사이트 나눠 한국레노버가 구글코리아와 진행한 ‘에듀 토크 콘서트’를 성황리에...
    Date2024.11.26 Bynewsit Views305
    Read More
  16. 안랩, 서스틴베스트 ESG 평가에서 4년 연속 최고 등급 'AA' 획득

    - 2021년~2024년 ESG 평가 모두 최고 등급, ESG 리스크 및 기회 관리 수준이 탁월한 기업으로 인정 안랩이 국내 대표 ESG 평가기관인 서스틴베스트의 2024년 하반기 ESG 평가에서 ‘AA’를 받으며 4년 연속 최고 등급을 유지했다. 서스틴베스트에 따르면 AA등급...
    Date2024.11.26 Bynewsit Views110
    Read More
  17. 티맥스소프트·티맥스티베로, '소프트웨이브 2024' 참가…“AI 클라우드 혁신 지원”

    - 클라우드 최적화 미들웨어와 DB로 ‘미래 AI 경쟁력’ 선보여 - 티맥스소프트·티맥스티베로, 미래 AI 생태계 강화 위해 협력 계획 - 티맥스소프트, ‘소프트웨이브 서밋’에서 ‘AI 기반 이슈관리 시스템 구성’ 주제 발표 - 티맥스티베로, ‘해외 바이어 수출 상담...
    Date2024.11.25 Bynewsit Views352
    Read More
  18. 테스토코리아, ‘연말맞이 특별 프로모션’ 이벤트

    - 테스토 온/습도계, 풍속 및 압력 측정기, 실내환경측정기 3개 제품군 구매 고객에게 테스토 전용 가방과 서비스 쿠폰팩 증정 - 인증 후기 이벤트도 함께 진행해 커피 쿠폰 및 주유상품권 등 푸짐한 경품 제공 테스토코리아는 오늘, 연말을 맞아 고객들의 성...
    Date2024.11.25 Bynewsit Views366
    Read More
  19. 신한카드, 부정거래 방지 시스템(FDS)을 오라클 DBMS에서 EDB ‘EPAS’로 전환

    - FDS를 오픈소스 기반으로 전환하며 용도별 최적화된 DB 솔루션을 활용한 다원화 운영 체계 구축 - ICT코어시스템에서 FDS 고도화 시스템까지 다양한 운영 서비스에 성공적으로 적용 완료 - 연중무휴로 국내외 PostgreSQL 전문 엔지니어로부터 글로벌 지원 서...
    Date2024.11.25 Bynewsit Views341
    Read More
  20. 팔로알토 네트웍스, 북한 지원받는 해커 그룹과 플레이 랜섬웨어 그룹의 협력 사실 최초로 발견

    - 유닛42의 랜섬웨어 공격 조사 발표, “북한과 연관된 해커 금전 목적 사이버 범죄 활동 깊숙이 관여 중” - 북한 정찰총국과 연관된 해커 조직 ‘점피 파이시스’와 ‘플레이 랜섬웨어’ 그룹의 협력 사실 최초로 발견 팔로알토 네트웍스는 위협 연구 기관 ‘유닛 4...
    Date2024.11.25 Bynewsit Views106
    Read More
Board Pagination Prev 1 ... 68 69 70 71 72 73 74 75 76 77 ... 250 Next
/ 250
CLOSE