- 대규모 언어 모델(LLM) 훈련 속도 최대 30% 향상

- 엔비디아 AI 플랫폼 네모 메가트론, A100 GPU 사용한 컨테이너형 프레임워크

- LLM, 실시간 콘텐츠 생성과 고객 서비스 챗봇 등 대화형 AI 인터페이스 발전 제공

엔비디아, 대규모 언어 모델 AI 플랫폼 ‘네모 메가트론’ 프레임워크 업데이트 발표_7 (1).jpg

 

 

엔비디아가 대규모 언어 모델(LLM)의 크기와 복잡성이 지속적으로 급증함에 따라 최대 30%의 훈련 속도 향상을 제공하는 네모 메가트론(NeMo Megatron) 프레임워크의 업데이트를 발표했다이번 업데이트는 두 가지 선구적인 기술과 여러 GPU에서 LLM 훈련을 최적화하고 확장하는 하이퍼 파라미터(hyper parameter) 도구를 포함한다. 이를 통해 엔비디아 AI 플랫폼으로 모델을 훈련하고 구축할 수 있는 새로운 기능을 제공한다.

 

1,760억 개의 파라미터(parameter)를 가진 세계 최대 오픈 사이언스, 오픈 액세스 다국어 언어 모델인 블룸(BLOOM)최근 엔비디아 AI 플랫폼에서 훈련돼 46개 언어와 13개 프로그래밍 언어로 텍스트 생성을 가능하게 했다. 또한 엔비디아 AI 플랫폼은 5,300억 개의 파라미터를 포함하는 가장 강력한 변환기 언어 모델인 메가트론-튜링 NLG 모델(MT-NLG)을 지원한다.

 

LLM의 최신 발전

LLM은 텍스트에서 학습하는 최대 수조 개의 파라미터를 포함하는 오늘날 가장 중요한 첨단 기술 중 하나다. 하지만 이를 개발하려면 심층적인 기술 전문 지식, 분산된 인프라, 전체 스택 접근 방식이 필요해 비용과 시간이 많이 든다그러나 실시간 콘텐츠 생성, 텍스트 요약, 고객 서비스 챗봇, 대화형 AI 인터페이스를 위한 질문과 답변을 발전시키는 데 있어 큰 이점을 갖는다.

 

AI 커뮤니티는 LLM을 발전시키기 위해 메가트론(Megatron)-LM, 에이펙스(Apex), 그리고 기타 GPU 가속 라이브러리를 포함하는 엔비디아 AI 플랫폼을 기반으로 하는 마이크로소프트 딥스피드(Microsoft DeepSpeed), Colossal-AI, 허깅 페이스 빅사이언스(Hugging Face BigScience), 페어스케일(Fairscale) 같은 도구의 혁신을 이어가고 있다.

 

엔비디아는 오늘날 엔비디아 AI 플랫폼에 대한 새로운 최적화를 통해 스택 전체에서 기존의 많은 문제점을 해결하며, AI 커뮤니티와 협력해 모든 사람이 LLM의 기능에 액세스할 수 있기를 기대하고 있다.

 

LLM 구축 시간 단축

네모 메가트론의 최신 업데이트는 220억에서 1조 파라미터에 이르는 크기의 GPT-3 모델 훈련 속도를 30% 향상시킨다. 이는 1,024개의 엔비디아 A100 GPU를 사용해 1,750억 개의 파라미터 모델에 대한 훈련을 24일 만에 수행하도록 한다. , 결과 도출 시간을 10일 또는 GPU 컴퓨팅 시간으로 약 250,000 시간 단축할 수 있다.

 

네모 메가트론은 빠르고 효율적이며 사용하기 쉬운 엔드 투 엔드 컨테이너형 프레임워크이다. 데이터 수집, 대규모 모델 훈련, 업계 표준 벤치마크에 대한 모델 평가, 지연 시간과 처리량 성능에 대한 최첨단 추론이 가능하다.

 

이를 통해 LLM 훈련과 추론을 다양한 GPU 클러스터 구성에서 쉽게 재현할 수 있다. 현재 얼리 액세스 고객에게 엔비디아 DGX 슈퍼POD(SuperPOD), 엔비디아 DGX 파운드리(Foundry), 마이크로소프트 애저(Microsoft Azure) 클라우드 플랫폼을 제공한다. 또한 다른 클라우드 플랫폼에 대한 지원도 제공될 예정이다.

 

더불어 사용자에게 엔비디아 가속 인프라의 실습 랩 카탈로그에 대한 단기 액세스를 제공하는 무료 프로그램인 엔비디아 런치패드(LaunchPad)에서 기능을 체험할 수 있다.

 

LLM 훈련 속도를 높이는 두 가지 새로운 기술

LLM 훈련을 최적화하고 확장하는 업데이트에 포함된 두 가지 새로운 기술은 시퀀스 병렬화(SP)와 선택적 활성화 재계산(SAR)이다.

 

시퀀스 병렬화(SP)는 이전에 병렬화 되지 않은 변환기 레이어의 영역이 시퀀스 차원을 따라 독립적이라는 점을 인식해 텐서 수준 모델 병렬화를 확장한다.

 

시퀀스 차원을 따라 이러한 레이어를 분할함으로써 텐서 병렬 장치 전반에 걸쳐 컴퓨팅 및 가장 중요한 활성화 메모리를 분산할 수 있다. 활성화가 분산되므로 재계산 대신 역방향 패스에 대해 더 많은 활성화를 저장할 수 있다.

엔비디아, 대규모 언어 모델 AI 플랫폼 ‘네모 메가트론’ 프레임워크 업데이트 발표_7 (2).png

 

 

[그림 1] 변환기 레이어 내의 병렬화 모드

[시퀀스 병렬화는 레이어놈(LayerNorm)과 드롭아웃(Dropout) 레이어에서 사용되는 반면 텐서 병렬화는 어텐션 및 FFN 레이어에서 사용된다]

 

선택적 활성화 재계산은 다른 활성화가 재계산하는 데 다른 수의 작업이 필요하다는 점을 인식한다. 이를 통해 메모리 제약으로 인해 활성화의 전부가 아닌 일부를 재계산해야 하는 경우를 개선한다.

 

전체 변환기 레이어를 검사하고 재계산하는 대신, 상당한 양의 메모리를 차지하지만 재계산하는 데 계산 비용이 많이 들지 않는 각 변환기 레이어의 부분만 검사하고 재계산할 수 있다.

 

엔비디아, 대규모 언어 모델 AI 플랫폼 ‘네모 메가트론’ 프레임워크 업데이트 발표_7 (3).png

 

 

 

[그림 2] 셀프 어텐션 블록. 빨간색 점선은 선택적 활성화 재계산이 적용되는 영역을 나타낸다.

[어텐션 레이어 내에서 QKT 행렬 곱셈, 소프트맥스(softmax), 소프트맥스 드롭아웃, V 연산에 대한 어텐션 활성화가 재계산된다]

엔비디아, 대규모 언어 모델 AI 플랫폼 ‘네모 메가트론’ 프레임워크 업데이트 발표_7 (4).png

 

[그림 3] SP SAR 덕분에 역방향 패스에 저장된 활성화 메모리의 양. 모델 크기가 증가함에 따라 SP SAR 모두 유사한 메모리 절약 효과를 나타내므로 필요한 메모리가 최대 5배 감소한다.

[시퀀스 병렬화 및 SAR은 메모리를 최대 5배 감소시킨다]

 

엔비디아, 대규모 언어 모델 AI 플랫폼 ‘네모 메가트론’ 프레임워크 업데이트 발표_7 (5).png

[그림 4] 전체 활성화 재계산 및 SP+SAR에 대한 계산 오버헤드 양.

막대는 순방향, 역방향 및 재계산 시간의 레이어별 분석을 나타낸다.

기준선은 재계산과 시퀀스 병렬화가 없는 경우이다. 이러한 기술은 모든 활성화가 저장되는 대신 재계산될 때 발생하는 오버헤드를 줄이는 데 효과적이다. 가장 큰 모델의 경우 오버헤드가 36%에서 2%로 떨어진다.  시퀀스 병렬화와 SAR은 함께 사용하면 오버헤드가 기준선의 2%로 감소한다.

 

LLM의 기능에 액세스하려면 고도로 최적화된 추론 전략도 필요하다. 사용자는 추론을 위해 훈련된 모델을 쉽게 사용하고 P-튜닝과 신속한 튜닝 기능을 사용하여 다양한 사용 사례에 최적화할 수 있다.

 

이러한 기능은 미세 조정에 대한 파라미터 효율적인 대안이며 LLM이 전체 사전 훈련된 모델을 미세 조정하는 강력한 접근 방식 없이 새로운 사용 사례에 적응할 수 있도록 한다. 이 기술에서는 원래 모델의 파라미터가 변경되지 않는다. 따라서 미세 조정 모델과 관련된 치명적인 '망각(forgetting)' 문제가 방지된다.

 

훈련과 추론을 위한 새로운 하이퍼 파라미터 도구

분산된 인프라에서 LLM 모델 구성을 찾는 과정에는 시간이 많이 소요된다. 네모 메가트론은 코드 변경 없이 최적의 훈련과 추론 구성을 자동으로 찾는 하이퍼 파라미터 도구를 도입한다. LLM은 처음부터 추론을 위해 수렴하도록 훈련되어 효율적인 모델 구성을 검색하는 데 시간을 낭비하지 않는다.

 

데이터 병렬화, 텐서 병렬화, 파이프라인 병렬화, 시퀀스 병렬화, 마이크로 배치 크기, 활성화 체크포인트 레이어 수(선택적 활성화 재계산 포함)와 같은 고유한 파라미터에 대한 경험적 그리드 검색을 사용하여 처리량이 가장 우수한 구성을 찾는다.

 

NGC의 컨테이너에 대한 엔비디아 테스트의 하이퍼 파라미터 도구를 사용하면 24시간 이내에 175B GPT-3 모델에 대한 최적의 훈련 구성에 도달한다(그림 5). 전체 활성화 재계산을 사용하는 일반적인 구성과 비교할 때 처리 속도가 20-30% 향상됐다. 더불어 최신 기술을 사용해 파라미터가 20B 이상인 모델의 처리 속도를 추가로 10-20% 향상시킨다.

 

엔비디아, 대규모 언어 모델 AI 플랫폼 ‘네모 메가트론’ 프레임워크 업데이트 발표_7 (6).png

[그림 5] 각 노드가 엔비디아 DGX A100인 경우 시퀀스 병렬화 및 선택적 활성화 재계산을 통해

속도 향상을 나타내는 여러 컨테이너에 대한 HP 도구의 결과.

[시퀀스 병렬화와 선택적 활성화 재계산 기능이 있는 22.06 컨테이너는 전체 재계산 또는 HP도구 기능이 있는 22.05 컨테이너에 비해 30% 더 빠른 속도를 제공한다.]

 

하이퍼 파라미터 도구를 사용하면 추론 중에 처리량이 가장 높거나 지연 시간이 가장 짧은 모델 구성을 찾을 수 있다. 또한 지연 시간과 처리량 제약 조건을 제공해 모델을 지원할 수 있으며, 도구는 적합한 구성을 권장한다.

 

엔비디아, 대규모 언어 모델 AI 플랫폼 ‘네모 메가트론’ 프레임워크 업데이트 발표_7 (1).png

 

[그림 6] 추론을 위한 HP 도구 결과는 GPU당 처리량과 다양한 구성의 지연 시간을 보여준다최적의 구성에는 높은 처리량과 짧은 지연 시간이 포함된다.

[HP 도구는 추론을 위한 높은 처리량과 짧은 대기 시간을 제공하는 최적의 모델 구성을 찾는다. GPT-3: 175B, 40B, 20B 파라미터 모델에 대한 다양한 처리량과 대기시간 트레이드오프가 있는 여러 여러 구성이 그래프에 표시된다.]

 

 

#엔비디아#네모#메가트론#프레임워크#LLM

?

  1. 온세미, ARRI 알렉사 35 카메라용 고급 CMOS 센서 개발…“이미징 기술을 통해 차세대 디지털 시네마토그래피 확장

    - 온세미 최신 CMOS 센서 기술 적용한 아리(ARRI)의 최신 디지털 시네마 카메라 알렉사(ALEXA) 35, 기존 4.6K 및 120fps로 업계 최고의 화질 생성 온세미는 오늘 아리(ARRI)의 알렉사(ALEXA) 35 카메라용 맞춤형 고급 CMOS 센서를 개발했다고 발표했다. 해당 ...
    Date2022.09.16 Bynewsit Views589
    Read More
  2. 소니, PTZ 카메라 「ILME-FR7」 발표…“세계 최초 풀프레임 이미지 센서 탑재”

    - 세계 최초 풀프레임 이미지 센서 탑재한 PTZ 카메라 ‘ILME-FR7’으로 라이브 프로덕션 및 영화 제작 시 크리에이터 창의성 구현 지원 - 카메라 시스템의 유연성을 높이기 위한 ‘VENICE 확장 시스템 2’ 출시 발표 소니는 풀프레임 이미지 센서 및 PTZ 기능을 ...
    Date2022.09.16 Bynewsit Views410
    Read More
  3. 벤큐, 프로 디자이너용 QHD 25인치모니터 「PD2506Q」출시

    - 25인치 제로베젤에 QHD 해상도, VESA HDR400을 지원하여 선명하고 생생한 화면 제공 - DCI-P3 95%, sRGB, Rec.709 100% 광색역 지원, 팩토리 캘리브레이션 지원으로 정확한 색상구현 벤큐는 25인치 화면에 QHD 해상도를 지원하는 프로 디자이너를 위한 모니...
    Date2022.09.16 Bynewsit Views423
    Read More
  4. Moxa, ‘오토메이션 타이페이 2022’에서 최신 TSN 솔루션 공개

    Moxa는 산업자동화 전시회인 오토메이션 타이페이 2022(Automation Taipei 2022)에서 최신 TSN 솔루션의 발전 사항과 단일 통합 네트워크를 위한 TSN 에코시스템에 대해 여러 혁신 성과를 발표했다. 최근 TSN 에코시스템에서 공동으로 개발한 데모를 통해 산업...
    Date2022.09.15 Bynewsit Views574
    Read More
  5. 퀀텀, AWS 마켓플레이스에 ‘퀀텀 스토어넥스트 파일 시스템’ 등록

    - 영상 후반 작업 및 스트리밍 애플리케이션을 위한 최고의 파일 시스템인 ‘퀀텀 스토어넥스트 파일 시스템’, AWS에서 이용 가능하며 사용자들이 수 분내에 구축 가능 - 퀀텀 소프트웨어로는 최초로 퍼블릭 클라우드 인프라에서 라이선스로 구매하고 배포 퀀텀...
    Date2022.09.15 Bynewsit Views407
    Read More
  6. 스틸시리즈, 광학 스위치 탑재한 게이밍 키보드 ‘에이펙스9’ 2종 출시

    - 옵티포인트 기술 적용한 핫 스왑 광학 스위치 탑재…타사 대비 33% 빠른 속도 - 게이머의 선호도 반영…승리를 위한 높은 내구성과 타건감 제공 게이밍 기어 브랜드 스틸시리즈(SteelSeries)가 최고의 속도감을 제공하는 ‘에이펙스9 TKL’과 에이펙스9 미니 키...
    Date2022.09.15 Bynewsit Views291
    Read More
  7. 마우저, ‘마우저 파워 세미나 2022’ 개최…“고효율 전원 설계 및 EMI 대책 기술 마련”

    마우저 일렉트로닉스는 오는 9월 21일(수) ~ 22일(목) 이틀간 아나로그디바이스(Analog Devices), 닛신보(Nisshinbo), 바이코(Vicor)와 함께 ‘고효율 전원 설계 및 EMI 대책 기술을 위한 마우저 파워 세미나 2022’를 온라인 상에서 무료로 개최한다고 밝혔다. ...
    Date2022.09.15 Bynewsit Views568
    Read More
  8. 줌, 새로운 브랜드 캠페인 런칭…“화상회의를 넘어 커뮤니케이션 플랫폼으로”

    줌, 새로운 브랜드 캠페인 런칭…“화상회의를 넘어 커뮤니케이션 플랫폼으로” 줌 비디오 커뮤니케이션즈가 브랜드 캠페인을 런칭하고 줌 브랜드를 새롭게 변화시킨다고 밝혔다. 이번 브랜드 캠페인은 물리적 환경과 디지털 환경을 결합시켜 포용과 몰입의 협업 ...
    Date2022.09.15 Bynewsit Views794
    Read More
  9. 킨드릴, BNK부산은행 IT서비스 체계 표준화 및 최적화 완료…“디지털 혁신 가속”

    - 컴플라이언스 대응, IT 라이프 사이클 전반의 생산성 관리 등 워크플로우 기반 IT 서비스 체계 확보 글로벌 1위 IT서비스 기업 킨드릴은 BNK부산은행의 디지털 혁신 가속화를 위한 IT 서비스 체계의 표준화 및 최적화 프로젝트를 완료했다고 밝혔다. 이번 프...
    Date2022.09.15 Bynewsit Views740
    Read More
  10. 가민코리아, 파라다이스 호텔 부산과 함께 ‘가민 러닝’ 이벤트

    - 9월 24일 파라다이스 호텔 부산과 5km 그룹 런 ‘가민 러닝’ 이벤트 진행 - 오전 10시부터 12시까지 진행되며 가민 런 클럽 코치가 러닝을 이끌 예정 - 30명 한정된 인원으로 사전 예약이 필수 - 참가자 전원에 다양한 선물 제공 및 럭키드로우 이벤트 진행 ...
    Date2022.09.15 Bynewsit Views392
    Read More
  11. 엔비디아 GTC, ‘지포스 비욘드: GTC 스페셜 방송’ 진행

    - 젠슨 황 키노트 발표 등 다양한 지포스 소식 공개 엔비디아가 GTC에서 지포스 비욘드(GeForce Beyond): GTC 스페셜 방송를 진행한다고 밝혔다. 엔비디아는 2022년 9월 19일부터 22일까지 가상으로 GTC(GPU Technology Conference)를 개최한다. 특히 9월 21일...
    Date2022.09.15 Bynewsit Views399
    Read More
  12. 컴볼트, 최고 파트너 비즈니스 책임자(CPO)로 데이터 보호 전문가 앨런 앳킨슨 선임

    - 풍부한 클라우드 및 데이터 보호 업계 경험을 토대로 컴볼트의 글로벌 파트너 에코시스템 강화에 주력 컴볼트는 오늘 데이터 보호 분야 업계 전문가인 앨런 앳킨슨(Alan Atkinson)이 최고 파트너 비즈니스 책임자(CPO)로 합류했다고 발표했다. 향후 앳킨슨 ...
    Date2022.09.15 Bynewsit Views652
    Read More
  13. 레드햇, 클로잇과 ‘레드햇 CCSP’ 파트너십 체결

    클로잇은 ‘레드햇 인증 클라우드 및 서비스 제공업체(CCSP)’ 프로그램에 참여한다고 발표했다. 양사는 이번 파트너십을 통해 레드햇의 다양한 오픈소스 솔루션과 클로잇의 클라우드 운영 및 구축 기술력을 결합해 하이브리드 클라우드 시장에 한층 업그레이드...
    Date2022.09.14 Bynewsit Views729
    Read More
  14. SAP Concur, “대한민국 기업 82% 지속 가능한 출장 형태에 적극 관심”

    SAP Concur는 14일 ‘SAP Concur 아태지역 지속가능성 설문조사’ 결과를 발표했다. 이번 조사 결과에 따르면 국내 기업 중 82%가 적극적으로 지속가능한 출장 형태에 대해 고려하며 여러 방면에서 노력을 이어가고 있는 것으로 나타났다. 컨설팅 그룹 아시아 인...
    Date2022.09.14 Bynewsit Views717
    Read More
  15. 포티넷, 비정상 네트워크 행위 탐지 및 대응 솔루션 ’FortiNDR’ 발표…“셀프 러닝 AI 기술 적용“

    - FortiNDR, 머신 러닝과 차세대 AI의 심층 신경망을 통한 비정상적인 네트워크 활동을 파악, 사이버 공격 탐지 및 위협 노출 제한 포티넷코리아는 강력한 AI와 어용분석기술(pragmatic analytics)을 통해 사고 탐지 및 위협 대응 속도를 높여주는 새로운 NDR ...
    Date2022.09.14 Bynewsit Views497
    Read More
  16. 슈나이더 일렉트릭 코리아, 소비자와 함께하는 참여형 기부 이벤트 진행

    - 이메일 구독시, 슈나이더일렉트릭코리아가 1천원을 기부해 미얀마 제야쉐타웅 지역에 태양광 패널 제공 - 공식 홈페이지 내에서 5가지 릴레이 이벤트…참석자에 풍성한 혜택 슈나이더 일렉트릭 코리아가 전력 수급난을 겪고 있는 미얀마 국가 아동들을 돕고자...
    Date2022.09.14 Bynewsit Views666
    Read More
  17. 화웨이, 글로벌데이터 ’5G 모바일 코어 경쟁 환경 평가’에서 리더로 선정…”4년 연속 세계 1위”

    화웨이가 전 세계 5G 코어 솔루션 및 사용 사례에서 4년 연속 리더로 선정됐다. 글로벌 시장조사기관 글로벌데이터(GlobalData)는 최근 발표한 '5G 모바일 코어: 경쟁 환경 평가(5G Mobile Core: Competitive Landscape Assessment)' 보고서에서 화웨이 5G 코...
    Date2022.09.14 Bynewsit Views485
    Read More
  18. ​​​​​​​매스웍스코리아, 국내 자동차 산업 대상 ‘매스웍스 오토모티브 컨퍼런스 2022’ 개최

    - 자동차 산업의 최신 트렌드, 기술, 도입 사례 소개 매스웍스코리아가 오는 9월 21일, ‘매스웍스 오토모티브 컨퍼런스 2022(MathWorks Automotive Conference 2022)‘를 온라인으로 개최한다고 밝혔다 전세계적으로 개최되고 있는 본 컨퍼런스는 미국과 유럽 ...
    Date2022.09.14 Bynewsit Views725
    Read More
  19. 마우저-몰렉스, RF 커넥터에 초점 맞춘 신규 콘텐츠 스트림 제공

    - 몰렉스의 RF 커넥터, 스마트 농업 등 다방면에 활용 가능 마우저 일렉트로닉스는 몰렉스(Molex)와 협력하여 RF 커넥터의 성능, 과제 및 혁신적 잠재력을 탐구하는 신규 콘텐츠 스트림의 출시를 발표했다. 이 콘텐츠 스트림에는 RF 기술에 관한 팟캐스트 에피...
    Date2022.09.13 Bynewsit Views517
    Read More
  20. 가민코리아, 가민 33번째 생일 기념 프로모션 이벤트

    - 가민, 33주년 창립 기념일 맞아 9월 12일부터 9월 21일까지 특별 할인 프로모션 진행 - 베뉴2 시리즈, 피닉스 6 시리즈, 어프로치 S40, 택틱스 델타 솔라, D2 시리즈 등 인기 제품 최대 60% 할인 - 전국 가민 공식 브랜드샵 온·오프라인 매장 및 파트너사 온...
    Date2022.09.13 Bynewsit Views513
    Read More
Board Pagination Prev 1 ... 266 267 268 269 270 271 272 273 274 275 ... 288 Next
/ 288
CLOSE