조이 생각

반응형


2017년 구글에서 사람 목소리를 생성해 내는 TTS 알고리즘으로 타코트론2를 발표했었습니다.





◎ TTS (Text To Speech)



TTS는 Text To Speech의 약자로, 텍스트를 입력하면 목소리로 변환해주는 기술이며

음성합성 기술에 속합니다.






작년에 한국인공지능연구소에서 진행한 음성합성 기술 세미나를 듣고 

직접 원하는 데이터를 학습해보았었는데요, 

다시 한번 정리하고자 포스팅을 해보려고 합니다. 

( ※ 본 포스팅은 저자 개인의 한정적인 지식을 바탕으로 쓰여진 글입니다. 내용의 오류나, 오타 등을 언제든지 알려주시면 감사하겠습니다.)



◎ 타코트론 (Tacotron) 



타코트론은 타코야키가 아닙니다. 

'타코를 좋아하는 트론(로봇)' 이라는 뜻이라고 어디서 본 것 같은데, 맞을지도 모르겠습니다. 

(타코트론을 개발하는 집단이 타코를 좋아해서 그렇게 이름을 지었다고 들은 것 같기도 하고..)

그 이유는 아래 링크를 들어가 보시면 알 것 같습니다.




작년에 공부 했던 터라 그때 이해한 것은 잘 기억이 나지 않아서

일단 간략하게 타코트론 (TTS) 학습 방법을 설명해 보려고 합니다.



1. 텍스트에서 feature 추출 : 한국어 기준으로 텍스트를 자모 단위로 쪼갭니다.





2. 데이터 변환 : 그리고 컴퓨터가 알아들을 수 있게 자모들을 숫자로 바꿔줍니다.





3. 학습 : RNN 기반의 신경망에 학습 시킵니다.




타코트론2의 핵심은 추가적인 attention mechanism을 넣었고, 


이 점이 텍스트와 상관 없이 화자의 음성 특징을 모방할 수 있게 해주는 것이죠.


그래서 거의 원본과 똑같이 자연스러운 음성 생성에 뛰어납니다.



타코트론2로 내가 원하는 목소리를 학습해서 텍스트만 입력하면 음성을 뽑아낼 수 있다고 생각해 보세요!


한번 해보고 싶지 않으신가요~?


부족하지만, 단계 별로 포스팅을 통해 제가 실행해봤던 것들을 함께 공유하고자 합니다. 



감사합니다.


다음 포스팅에서 만나요!






반응형

이 글을 공유합시다

facebook twitter kakaoTalk kakaostory naver band
loading