2017년 구글에서 사람 목소리를 생성해 내는 TTS 알고리즘으로 타코트론2를 발표했었습니다.
◎ TTS (Text To Speech)
◎ 타코트론 (Tacotron)
1. 텍스트에서 feature 추출 : 한국어 기준으로 텍스트를 자모 단위로 쪼갭니다.
2. 데이터 변환 : 그리고 컴퓨터가 알아들을 수 있게 자모들을 숫자로 바꿔줍니다.
3. 학습 : RNN 기반의 신경망에 학습 시킵니다.
타코트론2의 핵심은 추가적인 attention mechanism을 넣었고,
이 점이 텍스트와 상관 없이 화자의 음성 특징을 모방할 수 있게 해주는 것이죠.
그래서 거의 원본과 똑같이 자연스러운 음성 생성에 뛰어납니다.
타코트론2로 내가 원하는 목소리를 학습해서 텍스트만 입력하면 음성을 뽑아낼 수 있다고 생각해 보세요!
한번 해보고 싶지 않으신가요~?
부족하지만, 단계 별로 포스팅을 통해 제가 실행해봤던 것들을 함께 공유하고자 합니다.
감사합니다.
다음 포스팅에서 만나요!