일레븐랩스 TTS 후기 (음성합성, 가격, 활용법)
TTS로 만든 목소리가 진짜 사람 목소리와 구분이 안 된다면 믿으시겠습니까? 저는 처음 일레븐랩스를 써보고 나서 제 귀를 의심했습니다. 유튜브 영상 내레이션용으로 급하게 목소리가 필요했던 어느 날, 반신반의하며 텍스트를 입력했는데 5초 만에 나온 결과물이 성우 녹음본처럼 자연스러웠거든요. 그 순간 '이거 진짜 쓸 만한데?'라는 생각과 동시에 '성우 비용 500만 원이 아껴지겠구나'는 계산이 동시에 스쳐 지나갔습니다.
일레븐랩스 TTS, 왜 이렇게 자연스러울까
일레븐랩스(ElevenLabs)는 2022년에 설립된 AI 음성 합성 플랫폼입니다. 여기서 TTS란 'Text-to-Speech'의 약자로, 텍스트를 음성으로 변환해주는 기술을 뜻합니다. 쉽게 말해 글을 입력하면 사람처럼 읽어주는 AI 목소리가 나오는 거죠. 저는 이 서비스를 유료로 구독하면서 본격적으로 써봤는데, 영어는 물론이고 한국어, 일본어, 스페인어 등 총 32개 언어를 지원한다는 점부터 놀라웠습니다.
솔직히 이전에 써본 다른 TTS 서비스들은 억양이 어색하거나 기계음이 심해서 실용성이 떨어졌습니다. 그런데 일레븐랩스는 감정 표현, 억양, 속도까지 세밀하게 조정할 수 있어서 긴 스크립트를 줘도 자연스럽게 읽어냅니다. 실제로 A4 용지 3장 분량의 대본을 입력했을 때도 중간에 끊김 없이 매끄럽게 이어지는 걸 보고 감탄했습니다. 이 정도면 오디오북 제작이나 기업 교육 영상에도 충분히 쓸 수 있겠다는 확신이 들었습니다.
일레븐랩스의 주요 기능은 다음과 같습니다:
- 텍스트투스피치(TTS): 텍스트를 입력하면 AI가 음성으로 읽어줍니다.
- 보이스체인저(Voice Changer): 내 목소리를 다른 목소리로 바꿔줍니다.
- 사운드이펙트(Sound Effects): 폭발음, 배경음 등 영상에 필요한 효과음을 생성합니다.
- 오디오 클린업: 녹음한 음성에서 잡음을 제거하고 깔끔하게 다듬어줍니다.
제가 가장 자주 쓰는 건 역시 TTS 기능입니다. 출근길에 카페 글이나 긴 기사를 읽을 때 아이폰 접근성 기능으로 화면을 내리면 자동으로 음성이 재생되는데, 이때 일레븐랩스로 만든 음성을 연결해두면 눈도 피곤하지 않고 이어폰만 꽂고 편하게 들을 수 있습니다. 오디오북을 좋아하는 사람이라면 이 편리함을 바로 느끼실 겁니다.
음성 클로닝과 세부 설정, 직접 써본 후기
일레븐랩스에서 제공하는 다양한 한국어 목소리 중에서 저는 '상호'와 '진역'이라는 캐릭터를 주로 씁니다. 상호는 듣는 순간 신뢰를 주는 안정적인 중년 남성 톤이고, 진역은 좀 더 젊고 에너지 넘치는 느낌입니다. 목소리를 고를 때는 라이브러리에서 'Korean'으로 검색하면 수십 개의 샘플이 나오는데, 각 목소리마다 짧은 샘플을 들어볼 수 있어서 프로젝트 성격에 맞춰 고르면 됩니다.
처음에는 단순히 텍스트만 넣고 생성 버튼을 눌렀는데, 세부 설정을 만지면서부터 진짜 실력이 나왔습니다. 모델 버전부터 살펴보면, V2.5는 생성 비용이 저렴하고 반응 속도가 빠르지만 음질이 조금 떨어집니다. V2는 안정화된 버전으로 속도, 안정성(Stability), 유사도(Similarity), 스타일 과장(Style Exaggeration) 등을 조절할 수 있습니다. V3 알파는 실험 단계지만 가장 자연스러운 억양을 뽑아냅니다. 저는 대부분 V2로 작업하는데, 안정성과 성능의 균형이 가장 좋았습니다.
세부 설정 중 가장 중요한 건 '안정성(Stability)'입니다. 이 값은 음성의 억양과 감정 표현을 얼마나 다양하게 할지 결정하는 매개변수인데, 왼쪽으로 내리면 억양이 풍부해지지만 예측 불가능해지고, 오른쪽으로 올리면 일정한 톤으로 안정적으로 읽어줍니다(출처: ElevenLabs 공식 헬프센터). 제 경험상 감정적인 대사를 읽을 땐 안정성을 30~40% 정도로 낮추고, 뉴스나 교육용 내레이션은 70~80%로 높이는 게 좋았습니다.
'유사도(Similarity)'는 원본 목소리와 얼마나 비슷하게 유지할지 결정하는 값입니다. 음성 클로닝 기능을 쓸 때 특히 중요한데, 높일수록 원본 음색에 가까워지고 낮출수록 AI가 자유롭게 변형합니다. 저는 제 목소리를 클로닝해서 써본 적이 있는데, 유사도를 90% 이상으로 올리니 진짜 제가 직접 녹음한 것처럼 자연스러웠습니다. 다만 클로닝 기능은 유료 플랜에서만 제공되니 참고하세요.
'스타일 과장(Style Exaggeration)'은 말투와 감정 표현을 얼마나 강조할지 정합니다. 왼쪽으로 하면 담백하고 자연스러운 음성이 나오고, 오른쪽으로 하면 연극적이고 과장된 표현이 됩니다. 동화 낭독이나 광고용 멘트에는 오른쪽으로 올리는 게 효과적이었고, 교육 콘텐츠나 뉴스 스타일에는 왼쪽으로 내리는 게 적합했습니다. 이 값들을 처음 만질 땐 헷갈렸는데, 몇 번 테스트해보니 감이 확 잡혔습니다.
가격과 활용법, 이런 곳에 쓰면 딱입니다
일레븐랩스는 무료 플랜도 제공하지만, 본격적으로 쓰려면 유료 구독이 필수입니다. 무료 플랜은 월 10,000자까지 생성 가능하고, 유료 플랜은 Starter(월 $5, 30,000자), Creator(월 $22, 100,000자), Pro(월 $99, 500,000자) 등으로 나뉩니다. 저는 Creator 플랜을 쓰는데, 한 달에 유튜브 영상 3~4개 정도 만들기엔 충분합니다. 성우 비용을 생각하면 정말 저렴한 편이죠.
실제로 어디에 활용할 수 있을까요? 제가 직접 써본 사례를 정리해보겠습니다. 첫째, 유튜브 쇼츠나 틱톡 같은 짧은 영상 콘텐츠에 내레이션을 넣을 때 정말 유용합니다. 15~30초짜리 대본을 입력하고 5초 만에 음성을 뽑으니 작업 속도가 확 빨라집니다. 둘째, 오디오북이나 팟캐스트 제작에도 제격입니다. 스튜디오 기능을 쓰면 여러 화자(남성, 여성, 아이 목소리 등)를 번갈아가며 배치할 수 있어서 대화 형식의 콘텐츠도 자연스럽게 만들 수 있습니다.
셋째, 기업 이러닝이나 교육 영상 제작에도 활용도가 높습니다. 일반적으로 교육 영상에 성우를 쓰면 건당 50만 원 이상 들어가는데, 일레븐랩스로 대체하면 연간 500만 원 이상 절감할 수 있다는 계산이 나옵니다. 실제로 저는 사내 교육용 영상을 만들 때 이 서비스를 써봤는데, 퀄리티에 대한 불만은 전혀 없었습니다. 넷째, 광고 영상이나 프로모션 영상에도 쓸 수 있습니다. 15초짜리 광고 멘트를 여러 버전으로 빠르게 뽑아서 A/B 테스트를 해볼 수 있다는 점도 큰 장점입니다.
다만 한계도 분명합니다. 아무리 자연스러워도 미묘한 감정 표현이 필요한 드라마나 영화 더빙에는 아직 부족합니다. 또한 한국어의 경우 영어에 비해 억양 처리가 덜 정교해서, 복잡한 문장이나 전문 용어가 많은 대본은 발음이 어색할 때가 있습니다. 그럴 땐 대본을 좀 더 쉽게 풀어쓰거나, 띄어쓰기와 쉼표를 조정해서 재생성하면 개선됩니다.
일레븐랩스를 본격적으로 쓰면서 느낀 건, AI가 완벽하진 않지만 잘 활용하면 충분히 실전에서 쓸 수 있다는 점입니다. 어떤 기능이 부족한지 파악하고, 그 부분을 수동으로 보완하거나 다른 AI 도구와 조합하면 훨씬 완성도 높은 결과물을 만들 수 있습니다. 예를 들어 일레븐랩스로 음성을 만들고, 캡컷이나 프리미어로 편집하면서 적절한 배경음과 효과음을 더하면 프로급 영상이 나옵니다. AI 시대에는 도구 하나를 완벽하게 쓰는 것보다, 여러 도구를 적재적소에 조합하는 능력이 더 중요하다는 걸 실감하고 있습니다.
--- 참고: https://www.youtube.com/watch?v=aADVHL4ry30