반응형
메타는 다양한 기능을 제공하는 다목적 음성용 생성형 AI인 보이스박스 Voicebox를 공개했습니다. 이 고급 AI 모델은 인컨텍스트 학습을 통해 음성 편집, 샘플링, 스타일링과 같은 작업을 수행할 수 있습니다.
Voicebox는 원본 콘텐츠와 스타일을 유지하면서 원치 않는 배경 소음을 제거하는 등 고품질 오디오 클립을 제작하고 미리 녹음된 오디오를 편집하는 데 탁월한 성능을 발휘한다고 메타는 전합니다. 또한 다국어를 지원하여 6개 언어로 음성 제작이 가능합니다.
보이스박스는 다양한 잠재적 응용 분야를 가진 새로운 제너레이티브 AI 모델의 일부입니다. 예를 들어, 보이스박스는 자연스러운 음성을 제공하여 메타버스의 가상 비서와 비플레이어 캐릭터를 향상시킬 수 있습니다.
또한 AI가 친구의 목소리로 쓴 메시지를 읽을 수 있도록 하여 시각 장애인을 지원할 수도 있습니다. 또한 크리에이터는 보이스박스를 활용하여 동영상용 오디오 트랙을 손쉽게 제작하고 편집하는 등 다양한 가능성을 활용할 수 있습니다.
보이스박스의 기능 요약
- 컨텍스트 내 텍스트 음성 합성: Voicebox는 제공된 오디오의 스타일과 일치하는 2초 정도의 짧은 오디오 샘플을 사용하여 텍스트 음성 변환을 생성할 수 있습니다.
- 음성 편집 및 노이즈 제거: 중단된 음성 세그먼트를 재구성하거나 잘못 말한 단어를 다시 녹음할 필요 없이 대체할 수 있습니다. 예를 들어, 사용자는 음성 세그먼트에서 개 짖는 소리를 제거한 후 오디오 편집 지우개처럼 Voicebox가 이를 매끄럽게 재생성하도록 지시할 수 있습니다.
- 언어 간 스타일 전송: 서로 다른 언어로 된 음성 샘플과 텍스트 구절이 있으면 Voicebox는 지원되는 모든 언어(영어, 프랑스어, 독일어, 스페인어, 폴란드어, 포르투갈어)로 텍스트를 낭독할 수 있습니다. 이 기능은 서로 다른 언어를 사용하는 사람들이 서로 쉽게 대화할 수 있도록 도와줍니다.
- 다양한 음성 샘플링: 보이스박스는 다양한 종류의 데이터를 학습하여 알고 있는 6개 언어로 실제 사람들이 말하는 것과 같은 음성을 만들 수 있습니다.
(소스 : 메타)
반응형
'어쩌다 얼리어답터' 카테고리의 다른 글
페블 통화가능 스마트워치 코스모스 보그 출시 Pebble Cosmos Vogue (3) | 2023.06.18 |
---|---|
구글, 앨범 보관함 서비스 셧다운. 2023년 7월 19일 서비스 종료 (3) | 2023.06.18 |
갤럭시워치6 이미지 유출, 클래식은 43mm/47mm 좀 더 커졌다 (2) | 2023.06.17 |
Realme 11 Pro+, 인도출시 첫날 6만대이상 팔려 신기록 수립 (2) | 2023.06.17 |
어메이즈핏 Pop 3S 출시. 1.96" 화면, 가격은 5.5만원 (5) | 2023.06.17 |