새소식

AI LAB/🦜 TTS

5. [음성합성] recognition.google --audio_pattern

728x90

recognition.google --audio_pattern을 실행해보았습니다.

 

Google Speech Recognition API 를 사용하여, 오디오에 대한 문장을 출력해줍니다. 


> python -m recognition.google --audio_pattern "./datasets/son/audio/*.*.wav"

 

약... 4시간? 이 걸린 것으로 기억합니다.

 

해당 작업이 끝나면 275$ (약 28만원)을 사용하게 됩니다. ㄷㄷ

 

실행 중에 아래와 같은 에러에 직면할 수도 있습니다.

 

에러 발생 : cp949 codec can't decode byte 0xec in position illgall multibyte sequence

 

에러 원인 : cp949는 인코딩 문제입니다.

 

해결방법 : recogrecognition > alignment.py (106번째 줄)에 인코딩을 변경합니다.

 # candidates = [strip_fn(line) for line in open(news_path, encoding='cp949').readlines()]
candidates = [strip_fn(line) for line in open(news_path, encoding='utf-8').readlines()]

 

추가로 질문사항이 있다면 댓글에 남겨주세요. 감사합니다.

반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.