- 32H100 텐서 코어 GPU 탑재한 엔비디아 DGX 시스템에서 훈련

- 미세 조정과 소량의 데이트 통해 사전 훈련 없이도 작업 처리

- 개별적인 명령어 결합과 세밀한 제어 통해 보다 창의적인 결과물 생성

 

엔비디아, 텍스트만으로 오디오 생성하는 AI 모델 ‘푸가토’ 공개.jpg

엔비디아텍스트만으로 오디오 출력을 제어할 수 있는 생성형 AI 모델 ‘푸가토(Fugatto, Foundational Generative Audio Transformer Opus 1)’를 개발했다고 밝혔다.

 

엔비디아 생성형 AI 연구팀이 개발한 푸가토는 노래를 작곡하거나 음성을 수정할 수 있는 일부 AI 모델보다 뛰어난 정교함을 자랑하며, 텍스트와 오디오 파일의 조합을 사용해 프롬프트에 설명된 음악과 음성, 사운드의 모든 조합을 생성하거나 변형할 수 있다.

 

예를 들어, 텍스트 프롬프트에 따라 음악 스니펫(snippet)을 생성하고, 기존 노래에서 악기를 제거하거나 추가하고, 목소리의 억양이나 감정을 바꿀 수 있다. 심지어 이전에 들어본 적 없는 소리를 만들어낼 수도 있다.

 

멀티 플래티넘 프로듀서이자 작곡가인 이도 즈미슬라니(Ido Zmishlany)는  “이 기술은 정말 대단하다. 사운드는 내 영감의 원천이며 그것이 내가 음악을 만들게 하는 원동력이다. 스튜디오에서 즉석으로 완전히 새로운 사운드를 만들 수 있다는 생각은 정말 놀라운 일”이라고 밝혔다.

 

 

사운드에 대한 깊은 이해
엔비디아의 응용 오디오 연구 관리자이자 푸가토를 개발한 라파엘 발레(Rafael Valle)는 “우리는 사람처럼 소리를 이해하고 생성하는 모델을 만들고 싶었다”고 설명하고, "
다양한 오디오 생성과 변형 작업을 지원하는 푸가토는 여러 훈련된 능력의 상호 작용에서 나타나는 창발성(emergent property)을 보여주는 최초의 기초 생성형 AI 모델이며, 자유 형식의 지시를 결합할 수 있는 능력도 가지고 있다"고 밝혔다. 또한,  푸가토는 데이터와 모델 규모에 따라 오디오 합성과 변형에서 비지도 멀티태스크 학습이 가능한 미래를 향한 첫걸음”이라고 덧붙였다. 

 

다양한 푸가토 사용 사례
음악 프로듀서들은 푸가토를 사용해 노래에 대한 아이디어를 빠르게 프로토타입으로 만들거나 편집할 수 있으며, 다양한 스타일, 목소리, 악기를 시도해 볼 수 있다. 또한, 효과를 추가하고 기존 트랙의 전체 오디오 품질을 향상시킬 수도 있다.

 

이도 즈미슬라니는 “음악의 역사는 곧 기술의 역사이기도 하다. 일렉트릭 기타는 로큰롤을 탄생시켰고, 샘플러가 등장하면서 힙합이 태어났다. AI와 함께 우리는 음악의 다음 장을 쓰고 있다. 음악을 만들기 위한 새로운 도구와 새로운 악기가 생겼고, 이는 매우 흥미로운 일”이라고 밝혔다. 

 

광고 대행사는 푸가토를 적용해 기존 캠페인을 여러 지역이나 상황에 맞게 빠르게 조정하고, 음성 해설에 다양한 억양과 감정을 적용할 수 있다. 언어 학습 도구는 사용자가 선택한 목소리를 사용하도록 개인화할 수 있다. 가령, 가족이나 친구의 목소리로 온라인 강의를 들을 수 있다. 비디오 게임 개발자들은 이 모델을 사용해 게임을 플레이하면서 변화하는 동작에 맞게 타이틀에 미리 녹음된 애셋을 수정할 수 있다. 또한, 텍스트 지침과 선택적 오디오 입력을 기반으로 즉석에서 새로운 애셋을 생성할 수도 있다.

 

즐거운 소음 만들기
라파엘 발레는 “우리가 특히 자랑스럽게 여기는 모델 기능 중 하나는 ‘아보카도 의자’라고 부르는 것”이라고 말하며, 이미지용 생성형 AI 모델이 만든 독특한 비주얼을 언급했다. 

 

예를 들어, 푸가토는 트럼펫에서 강아지 소리를 내게 하거나, 색소폰에서 고양이 소리를 내도록 할 수 있다. 사용자가 묘사할 수 있는 것은 무엇이든 모델이 생성할 수 있다. 연구팀은 미세 조정과 소량의 노래 데이터를 통해 텍스트 프롬프트에서 고품질의 노래 음성을 생성하는 등 사전 훈련되지 않은 작업도 처리할 수 있음을 발견했다.

 

예술적인 제어 기능 제공

푸가토의 참신함을 더하는 몇 가지 기능이 있다.

 

푸가토는 추론하는 동안 컴포저블아트(ComposableART)라는 기술을 사용해 훈련 중에 개별적으로만 보였던 명령어를 결합한다. 예를 들어, 프롬프트의 조합으로 ‘슬픈 감정’의 ‘프랑스어 억양으로’ 말하는 텍스트를 요청할 수 있다. 모델의 명령어 간 보간 기능을 통해 사용자는 억양의 강약이나 슬픔의 정도 등과 같은 텍스트 명령어를 세밀하게 제어할 수 있다.

 

푸가토의 이러한 측면을 설계한 AI 연구원 로한 바들라니(Rohan Badlani)는 “사용자가 주관적이거나 예술적인 방식으로 속성을 조합할 수 있도록 하고, 각 속성을 얼마나 강조할지 선택할 수 있게 하고 싶었다”고 설명하고, “테스트 결과 종종 놀라운 결과가 나왔고, 내가 컴퓨터 과학자이지만 예술가가 된듯한 기분이 들었다”고 밝혔다.

 

아울러 푸가토는 시간이 지남에 따라 변화하는 소리를 생성하는데,  기능을 시간적 보간(temporal interpolation)이라고 한다. 예를 들어, 천둥소리가 점점 크게 들리다가 점차 멀어지며 지역을 통과하는 폭풍우 소리를 만들 수 있다. 또한 사용자가 사운드스케이프의 진행 방식을 세밀하게 제어할 수 있다. 또한, 노출된 훈련 데이터만 재현할 수 있는 대부분의 모델과 달리, 푸가토를 사용하면 새소리와 함께 새벽녘으로 잦아드는 뇌우와 같이 이전에 들어본 적 없는 사운드스케이프를 만들 수 있다.

 

푸가토는 연구팀이 음성 모델링, 오디오 보코딩, 오디오 이해와 같은 분야에서 쌓아온 이전 작업을 기반으로 하는 기초 생성형 트랜스포머 모델이다.

 

정식 버전은 25억 개의 파라미터를 사용하며, 32개의 엔비디아 H100 텐서 코어(Tensor Core) GPU가 탑재된 엔비디아 DGX 시스템을 통해 훈련됐다. 푸가토 제작에는 인도, 브라질, 중국, 요르단, 한국 등 전 세계의 다양한 사람들이 함께했다. 이들의 협업으로 푸가토의 다중 억양과 다국어 기능이 더욱 강화됐다.

 

이 작업에서 가장 어려운 부분 중 하나는 훈련에 사용된 수백만 개의 오디오 샘플로 구성된 혼합 데이터 세트를 생성하는 것이었다. 연구팀은 데이터와 지침을 생성하기 위해 다각적인 전략을 사용했다. 이를 통해 모델이 수행할 수 있는 작업의 범위를 크게 확장하는 동시에, 더 정확한 성능을 달성하고 추가 데이터 없이도 새로운 작업을 수행할 수 있게 했다.

 

아울러 기존 데이터 세트를 면밀히 분석해 데이터 간의 새로운 관계를 밝혀냈다. 전체 작업은 1년 이상이 소요됐다.

 

#엔비디아#푸가토#AI#

 

 

?

  1. 텐스토렌트, 삼성증권과 AFWP에서 시리즈 D 투자 유치…“한국과 협력 강화”

    텐스토렌트(Tenstorrent)는 국내 대표적인 벤처캐피털 회사인 삼성증권과 AF W파트너스( AFWP)가 주도한 6억 9,300만 달러 규모의 시리즈 D 펀딩 라운드를 발표했다. 두 회사는 텐스토렌트와 깊은 관계를 유지하고 있으며, 혁신적이고 성공적인 기술 기업에 투...
    Date2024.12.03 Bynewsit Views190
    Read More
  2. 마우저, <10명의 전문가들이 제시하는 GaN 기술에 대한 고찰> 전자책 발간

    - GaN 기반 전력전자장치의 이점을 분석 마우저 일렉트로닉스는 아나로그디바이스(ADI) 및 번스(Bourns)와 협력하여 효율성과 성능, 지속가능성 측면에서 질화갈륨(GaN) 기술이 제공하는 이점과 도전 과제 등을 탐구한 새로운 전자책을 발간했다고 밝혔다. 전...
    Date2024.12.03 Bynewsit Views162
    Read More
  3. 유아이패스, 조달청 나라장터에 ‘자동화 솔루션’ 등록

    - 정부 조달시스템 통해 유아이패스 엔터프라이즈 자동화 솔루션 직접 구매 가능 유아이패스가 정보보안 선도기업 에이텍정보기술(ATEK)과 함께 조달청 나라장터에 자사의 자동화 솔루션을 등록 완료했다고 밝혔다. 이를 통해 공공기관들이 간소화된 조달 프로...
    Date2024.12.03 Bynewsit Views363
    Read More
  4. 샵백코리아, “‘여행 스토어’ 이용 유저 전년 대비 2배 증가”

    - 샵백을 경유해 여행 스토어에서 결제한 유저, 전년 대비 2배 이상 성장 - 인기 여행 플랫폼에서 결제 시 최대 28% 캐시백 제공하는 특별 프로모션 진행 - 샵백 신규 멤버가 첫 구매로 추천 여행 스토어에서 1만 원 이상 결제 시 5000원의 추가 보너스 캐시백...
    Date2024.12.02 Bynewsit Views343
    Read More
  5. 힐셔, 신규 SPE 미디어 스위치 출시

    - PROFINET, EtherNet/IP, Modbus 네트워크용 힐셔는 산업용 이더넷 네트워크에 싱글 페어 이더넷(SPE)을 내장하기 위해 설계된 신규 SPE 미디어 스위치를 출시했다고 밝혔다. 힐셔의 다중 프로토콜 지원형 netX90 통신 컨트롤러를 기반으로 하는 새로운 SPE ...
    Date2024.12.02 Bynewsit Views164
    Read More
  6. 아비바, ‘하이브리드 클라우드 MES’ 솔루션 출시

    - 하이브리드 클라우드 제조실행시스템(MES) 솔루션으로 여러 곳에 분산된 플랜트 운영에 대한 포괄적인 시각화 및 운영 최적화 지원 아비바코리아는 데이터 서비스 및 시각화 기능을 강화한 하이브리드 제조실행시스템(MES) 솔루션을 출시하고 산업용 인텔리...
    Date2024.12.02 Bynewsit Views361
    Read More
  7. 캐논코리아, RF 마운트 시네마 카메라 ‘EOS C400’ 및 ‘EOS C80’ 론칭 쇼케이스 성료

    - EOS C400·EOS C80, 이면조사 적층형 CMOS 센서와 DIGIC DV7 영상 처리 엔진으로 다양한 전문 촬영 지원 캐논코리아가 서울 용산구 ‘공간오즈’에서 전문가용 시네마 카메라 EOS C400과 EOS C80의 출시를 기념해 론칭 쇼케이스를 개최했다. 캐논코리아는 론칭 ...
    Date2024.12.02 Bynewsit Views149
    Read More
  8. 파나소닉코리아, 테크닉스 차세대 그랜드 클래스 턴테이블 SL-1300G 출시

    - 신개발 트윈 로터형 코어리스 다이렉트 드라이브 모터와 ΔΣ(델타 시그마) 드라이브로 구동력 강화 - 3층 구조 플래터・2층 구조 섀시로 정밀한 밸런스 조정과 강성을 높여 보다 안정감 있는 사운드 재생 - 멀티-스테이지 사일런트 파워 서플라이로 안정적인 ...
    Date2024.12.02 Bynewsit Views109
    Read More
  9. 티맥스소프트-메가존클라우드, 부울경 '디지털 제조 혁신 컨퍼런스' 성공 개최

    - 영남지역 제조 고객 대상 컨퍼런스 열어 - AWS, 미라콤아이앤씨까지 참여해 종합적인 비즈니스 혁신 방안 제시 - 티맥스소프트, 다양한 클라우드 기업과 협업해 제조 분야 패러다임 전환 지원 기업용 소프트웨어 전문기업 티맥스소프트는 메가존클라우드와 ...
    Date2024.12.02 Bynewsit Views373
    Read More
  10. ASUS, 비즈니스 노트북 「엑스퍼트북(ExpertBook) P5」 출시…“루나 레이크 탑재한 최초의 AI 노트북”

    - 최신 인텔 코어 울트라 프로세서(시리즈 2) 탑재…에이수스 최초의 AI 비즈니스 노트북 - ExpertBook P5, 이전 세대 대비 2배 이상 향상된 배터리 수명으로 재택, 출근 등 하이브리드 업무에 적합 - 1.65cm의 슬림한 두께 및 1.29kg의 가벼운 무게로 출장, 미...
    Date2024.12.02 Bynewsit Views169
    Read More
  11. 티피링크, 휴대용 고성능 무선 공유기 ‘TL-WR1502X’ 출시

    티피링크(TP-Link)는 휴대성과 고성능을 동시에 제공하는 와이파이6 휴대용 공유기 ‘TL-WR1502X’를 국내에 출시했다고 밝혔다. TL-WR1502X는 가방이나 주머니에 넣어 들고 나닐 수 있는 포켓 사이즈로 컴팩트한 디자인과 휴대성을 갖췄으며, 고성능 AX1500 듀...
    Date2024.12.02 Bynewsit Views135
    Read More
  12. 가민, 프리미엄 휴대용 런치 모니터 ‘어프로치 R50’ 출시…“내장형 골프 시뮬레이터 내장”

    - 3개의 고속 카메라를 활용해 15가지 이상의 클럽 및 볼 지표 제공 - 43,000개 이상의 내장 골프 코스 맵에서 가상 골프 라운딩 가능 - 훈련 모드 탑재 및 고속 임팩트 영상으로 시각적 스윙 피드백 제공 가민은 내장형 골프 시뮬레이터를 탑재한 프리미엄 휴...
    Date2024.12.02 Bynewsit Views167
    Read More
  13. 사이냅 문서뷰어 2025, ‘MS Office 2024’와 ‘아래아한글 2024’ 지원…“협업과 보안 강화”

    - 사용자 친화적인 UI/UX 제공 - 소프트웨이브 2024에서 신제품 데모 체험 기회 제공 사이냅소프트가 사이냅 문서뷰어 2025를 출시했다고 밝혔다. '사이냅 문서뷰어'는 사용자가 MS Office, HWP, PDF 등 다양한 문서와 이미지 파일을 웹이나 모바일에서 다운로...
    Date2024.12.02 Bynewsit Views431
    Read More
  14. 유니버설 로봇 킴 포블슨 CEO, “협동로봇으로 로봇 강국 대한민국 지원”

    - ‘협동 로봇’의 현재와 미래 인사이트 공유 ‘유니버설 로봇(Universal Robots)의 킴 포블슨 CEO는 29일 방한과 함께 ‘협동로봇 기업의 현재와 미래’ 전망을 발표하고, 2024년 현재 전 세계 협동로봇 시장을 선도하고 있는 유니버설 로봇의 지속적인 성장에 대...
    Date2024.12.02 Bynewsit Views328
    Read More
  15. 마드라스체크, 일본 리오나이스(Lionice)와 MOU 체결…‘협업툴 플로우’로 일본 7만개 고객사 적극 공략

    – 일본 기업 특화 기능으로 현지화 완료, 일본 시장의 대표 협업툴로 목표 국내 대표 협업툴 플로우 개발사 마드라스체크가 일본 소프트웨어유통 전문기업 리오나이스(Lionice)와 협업툴 플로우의 일본 시장 진출 확대를 위한 업무 협약(MOU)을 체결했다고 밝...
    Date2024.11.29 Bynewsit Views322
    Read More
  16. 타포, 듀얼 파워의 스마트 비디오 도어벨 ‘Tapo D235’ 출시

    티피링크의 스마트홈 브랜드 타포(Tapo)는 듀얼 파워 설계와 24시간 연속 녹화 기능을 갖춘 스마트 비디오 도어벨 ‘타포(Tapo) D235’를 선보였다. 타포 D235는 10,000mAh의 대용량 배터리와 유선 전원 옵션을 모두 지원해 설치 환경에 따라 유연하게 활용할 수...
    Date2024.11.29 Bynewsit Views148
    Read More
  17. 스틸시리즈, 게이밍 무선 이어폰 ‘아크티스 게임버즈’ 화이트 및 Xbox 버전 신모델 출시

    - 블루투스 및 초소형 2.4GHz 동글로 다양한 플랫폼을 지원하는 뛰어난 연결성 - 맞춤형 차세대 칩셋을 통해 컴팩트한 폼 팩터에서 아크티스 오디오의 뛰어난 사운드 제공 - 40시간 배터리 지속 시간과 귀 스캔을 기반으로 설계하여 완벽한 착용감 제공 - 게임...
    Date2024.11.29 Bynewsit Views133
    Read More
  18. 웨스턴디지털, WD_BLACK SN850X NVMe SSD 8TB 국내 출시

    웨스턴디지털이 ‘WD_BLACK SN850X NVMe SSD’ 8TB를 국내 출시하며 수상 경력에 빛나는 자사 고성능 게이밍 라인업을 확장한다. WD_BLACK SN850X NVMe SSD 8TB는 히트싱크 미탑재 모델과 히트싱크 모델로 제공되며 WD_BLACK SN850X NVMe SSD 4TB 히트싱크 탑재 ...
    Date2024.11.29 Bynewsit Views128
    Read More
  19. 와콤, 브랜드스토어에서 ‘와콤 블랙프라이데이’ 프로모션 이벤트

    - 1년에 단 한 번 실시하는 ‘와콤 블랙프라이데이’, 상암동 와콤 브랜드스토어에서 폭넓은 할인 혜택 제공 - 와콤 타블렛 최대 40% 및 액세서리 최대 80% 할인…100% 당첨 룰렛 이벤트 등 풍성한 프로그램 마련 와콤코리아가 금일부터 오는 30일(토)까지 상암동...
    Date2024.11.29 Bynewsit Views128
    Read More
  20. 한국레노버, 최〮대 280Hz 고주사율 게이밍 모니터 리전 ‘R27fc-30’ 출시

    - 뛰어난 성능으로 편안한 게임 플레이 지원 - 다양한 각도 지원하는 스탠드로 자유롭게 조절 한국레노버가 뛰어난 성능을 기반으로 편안하고 게임 플레이에 최적화된 환경을 제공하는 게이밍 모니터 신제품 ‘R27fc-30’를 출시했다. 이번 신제품은 1500R 곡률...
    Date2024.11.29 Bynewsit Views164
    Read More
Board Pagination Prev 1 ... 85 86 87 88 89 90 91 92 93 94 ... 268 Next
/ 268
CLOSE