HowtoAI
ai-revenue2026-04-27 5 min read

AI 자막 자동 생성 5종 비교 — 한국어 정확도와 부업 활용 가이드

🤖
HowtoAI 편집팀AI 전문 에디터

AI 기술을 누구나 쉽게 활용할 수 있도록 실전 가이드를 작성합니다. ChatGPT, Claude, AI 자동화, SEO 분야를 전문으로 다룹니다.

📅 2026-04-27⏱️ 5 min read🌐 how-toai.com
목차 보기

유튜브·쇼츠 자막 자동 생성 AI 5종 비교 후기예요. 저도 작년부터 자막 부업 시작했는데 AI 도구 활용으로 시간이 50% 줄었거든요.

특히 한국어 자막은 VREW가 압도적, 영어·다국어는 Descript·CapCut이 좋아요. 5종 정확도·속도·가격과 부업 활용 가이드 정리했어요.

AI 자막 자동 생성 5종 비교

5종 한눈에 비교

도구한국어 정확도무료 한도유료 가격강점
VREW95%+월 90분월 9,900원~한국어 최강
CapCut80%+무제한월 7.99달러편집 통합
Adobe Premiere85%+없음월 24,000원전문가 편집
Descript85%+월 60분월 16달러텍스트 편집
Submagic75%+무료 체험월 10달러쇼츠 강조

VREW (1위 — 한국어 최강)

한국 회사 보이저엑스 제작.

장점

  • 한국어 정확도 95%+ (한국 발화 데이터 학습)
  • 발화자 자동 구분
  • 자막 위치·스타일 자유 편집
  • AI 음성 합성 (TTS)도 통합
  • 한국 유튜버 표준 도구

단점

  • 영상 편집 기능 약함 (자막 전용)
  • 무료 월 90분 (작은 한도)
  • 영어·외국어 정확도 낮음

가격

  • 무료: 월 90분
  • 베이직: 월 9,900원 (월 600분)
  • 라이트: 월 19,900원 (월 2,400분)

추천 용도

  • 한국어 유튜브 자막
  • 한국어 강의·인터뷰 자막
  • 한국어 쇼츠 자막

CapCut (2위 — 편집 통합)

전 세계 1위 모바일 영상 편집 + 자막.

장점

  • 무료 무제한 (광고 워터마크 없음)
  • 자막 + 영상 편집 + 효과 통합
  • 다국어 자막 (한·영·중·일)
  • 모바일·PC 모두 지원
  • 쇼츠 강조 효과 다양

단점

  • 한국어 정확도 80% (VREW 대비 낮음)
  • ByteDance(틱톡 모회사) 운영 → 데이터 정책 우려
  • 비즈니스 사용 일부 제한

가격

  • 무료: 무제한 (대부분 기능)
  • Pro: $7.99/월 (4K, 고급 효과)

추천 용도

  • 다국어 콘텐츠
  • 모바일 편집 위주
  • 영상 편집 + 자막 한 번에

Adobe Premiere (3위 — 전문가)

Adobe 영상 편집 표준.

장점

  • 영상 편집 업계 표준
  • 자막 + 색보정 + 사운드 통합
  • 한국어 정확도 85%+
  • 협업·공유 기능 강함

단점

  • 비쌈 (월 24,000원)
  • 학습 곡선 가파름
  • AI 자막은 부가 기능 (메인 X)

가격

  • 단일 앱: 월 24,000원
  • 모든 앱: 월 89,000원

추천 용도

  • 전문 영상 편집자
  • 광고·기업 영상
  • 협업 프로젝트

Descript (4위 — 텍스트 편집 혁신)

영상을 텍스트로 편집하는 혁신 도구.

장점

  • 영상 편집 = 텍스트 편집 (워드처럼)
  • 자막 + 화자 음성 합성
  • 영어 정확도 95%+
  • 협업 기능 우수

단점

  • 한국어 정확도 85% (영어 대비 낮음)
  • UI 영어 (한국어 부분 번역)
  • 가격 비쌈

가격

  • Free: 월 60분
  • Hobbyist: $16/월 (월 600분)
  • Creator: $30/월 (월 1800분)

추천 용도

  • 팟캐스트·인터뷰
  • 영어 콘텐츠
  • 텍스트 편집 워크플로

Submagic (5위 — 쇼츠 특화)

쇼츠·릴스 자막 강조 효과.

장점

  • 쇼츠 자막 강조 효과 다양 (단어별 색상)
  • 자동 이모지 추가
  • AI 핵심 키워드 강조
  • 미국 인플루언서 표준

단점

  • 한국어 정확도 75% (낮음)
  • 한국어 효과 부족
  • 가격 부담

가격

  • 무료 체험 3개
  • Essential: $10/월 (월 60분)
  • Pro: $20/월 (월 240분)

추천 용도

  • 영어 쇼츠·릴스
  • 강조 효과 풍부

정확도 실측 (한국어 5분 영상)

같은 영상을 5종에 모두 처리.

테스트 환경

  • 5분 한국어 인터뷰 영상 (전문 용어 포함)
  • 외장 마이크 녹음
  • 잡음 적음

단어 정확도

  • VREW: 96% (574/600 단어)
  • Adobe Premiere: 87%
  • Descript: 86%
  • CapCut: 82%
  • Submagic: 76%

자동 분리 정확도

  • VREW: 90% (자연스러운 분리)
  • CapCut: 80%
  • Submagic: 75%

자막 부업 시작 7단계

1단계: 본인 강점 분야

  • 일반 한국어: VREW
  • 영어 콘텐츠: Descript·Submagic
  • 다국어: CapCut

2단계: 도구 셋업

  • 메인 1개 + 보조 1개 (월 1~3만원)
  • VREW 베이직 + CapCut 무료 조합 추천

3단계: 포트폴리오 구축

  • 본인 유튜브 채널 자막 5~10개
  • 다양한 스타일 (강의·예능·쇼츠)
  • 전후 비교 데모

4단계: 플랫폼 등록

  • 크몽·숨고 영상 자막 카테고리
  • 본인 인스타·블로그
  • 유튜브 채널 직접 영업

5단계: 첫 의뢰

  • 처음 5건 시세 50% (후기용)
  • 빠른 응답 (24시간 이내)
  • 풍부한 코멘트

6단계: 단가 정상화

  • 후기 5건 5점 → 단가 인상
  • 본인 강점 분야 명시 → 단가 2~3배

7단계: 확장

  • 자막 + 썸네일 + 편집 패키지
  • 월 단위 정기 계약
  • 자체 채널·코칭 운영

자막 단가 가이드

영상 1분당 단가 (한국어 기준).

분야단가
일반 영상 자막1,000~2,000원
강의 자막 (전문 용어)2,000~3,000원
영문→한글 번역 자막3,000~5,000원
다국어 자막 (3개 언어)5,000~10,000원
쇼츠 강조 효과+1,000~2,000원
폰트·디자인 커스텀+500~1,500원

1시간 영상 기준 수익

  • 일반 자막: 6~12만원
  • 작업 시간: 1~2시간
  • 시급: 3~6만원

참고 자료

  • VREW (vrew.voyagerx.com)
  • CapCut (capcut.com)
  • Descript (descript.com)
  • Submagic (submagic.co)
  • 크몽 영상 자막 카테고리 (kmong.com)

비슷한 AI 부업 가이드로 AI 영어 첨삭 부업 7단계AI 영상 편집 프로그램 TOP5, AI PPT 부업 7노하우도 함께 보세요.

결론 — 한국어는 VREW, 다국어는 CapCut

한국어 자막 부업은 VREW + 사람 검수가 표준 조합이에요. 95% 정확도 + 발화자 구분 + 빠른 처리로 시간 50% 절감 가능.

다국어 콘텐츠나 영상 편집까지 통합하려면 CapCut. AI 결과 그대로 쓰지 말고 반드시 사람이 검수 + 강조 효과 추가가 부업 가치의 핵심. 시급 2만원 이상 가능합니다.

실전 시나리오 — 30대 직장인의 자막 부업 첫 3개월

서울 마포구에 사는 32세 직장인 A님 사례를 공유해요. 본업은 출판사 편집자, 평일 저녁과 주말만 활용해서 자막 부업을 시작했어요.

  • 1개월차: VREW 베이직(월 9,900원) + CapCut 무료 조합으로 시작. 본인 책 리뷰 유튜브 영상 6개로 포트폴리오 만들기. 크몽 등록 후 첫 2주는 0건, 3주차에 자기계발 채널 운영자 한 분이 5분 영상 자막 의뢰. 단가 1만 2,000원
  • 2개월차: 후기 4건 누적. 단가를 1분당 1,200원에서 1,600원으로 인상. 한 달 12건 처리, 영상 총 길이 약 110분. 매출 약 17만원, 시급 환산 약 2만 1,000원
  • 3개월차: 본인 강점인 "출판·도서 분야 전문 용어"를 셀러 소개에 명시. 도서 리뷰 채널 3곳에서 월 단위 정기 계약 제안. 월 매출 38만원, 작업 시간 주 8시간으로 안정화

처음부터 단가 욕심내면 후기가 안 쌓여요. 첫 5건은 시세보다 30~40% 낮게, 그 다음부터 점진적 인상이 정석이에요.

흔한 함정과 회피법

자막 부업 시작자가 첫 달에 가장 많이 부딪치는 함정 5개예요.

  • VREW 자동 결과를 그대로 납품: 95% 정확도라도 5%는 발화자 이름·전문 용어·신조어에서 어김없이 틀려요. 검수 안 하면 환불 + 별점 1점 콤보. 반드시 1.2배속으로 영상 전체 들으면서 자막 동시 점검
  • 수정 무제한 약속: "수정 무제한"으로 어필하면 진상 고객이 몰려요. "2회 수정 포함, 추가 회당 5,000원" 명시가 표준. 진상 필터링 + 추가 매출 두 마리 토끼
  • 시간당 단가만 보고 가격 책정: 본인 시급이 아니라 "고객이 절약하는 시간"으로 단가 설계하세요. 1시간 영상을 고객이 직접 하면 6시간, 본인이 1시간이라면 시장 단가는 고객 6시간 가치 기준
  • VREW 무료(월 90분)만으로 부업 시도: 90분은 영상 3~4개 분량. 두 번째 의뢰부터 한도 초과로 작업 못 해요. 첫 후기 1건 받으면 베이직(9,900원) 즉시 결제가 ROI 정답
  • 저작권 의식 없이 작업: 클라이언트가 무단으로 가져온 영상 자막 작업하다 저작권자에게 항의받은 사례 있어요. 의뢰 받을 때 "본인 채널 영상인지" 한 줄 확인이 5분 투자로 평생 리스크 회피

도구별 한 줄 결정 트리

상황별 가장 빠른 도구 선택 가이드예요.

상황1순위 도구보조 도구예상 시간(10분 영상)
한국어 유튜브 일반VREWCapCut(편집)15분
한국어 쇼츠 강조VREWSubmagic(템플릿)12분
한·영 혼용 강의Whisper + ClaudeVREW(검수)20분
영어 → 한글 번역DescriptDeepL25분
전문 의료·법률Whisper + 수동VREW(보조)35분

위 표를 책상 옆에 붙여두고 의뢰가 들어올 때 30초 안에 도구 결정해요.

자주 묻는 질문

VREW 무료 90분만으로 한 달 부업 매출 얼마까지 가능한가요?

이론상 90분으로 영상 3~4개 처리 가능하지만, 그것만으로는 후기 누적이 너무 느려요. 무료 한도 내에서 본인 포트폴리오 영상 3개 만들고, 첫 의뢰 1건 받으면 베이직(월 9,900원)을 바로 결제하는 게 ROI 정답이에요. 베이직 600분으로 한 달 영상 20개 이상 처리 가능해요.

Whisper 셀프호스팅에 필요한 PC 사양이 어느 정도예요?

GPU는 RTX 3060(12GB) 이상이면 Large-v3 모델 안정 작동. RTX 4060 Ti·5060 Ti(16GB)면 더 여유. CPU만으로도 가능하지만 1시간 영상 처리에 12시간 걸려서 실용성 떨어져요. M2/M3 맥북 프로도 잘 돌아가요. 처음엔 Replicate 클라우드(시간당 0.10.2달러)로 시작해서 월 작업량 1만 분 넘으면 셀프호스팅 ROI 판단하세요.

자막 부업 첫 3개월 평균 수익 현실은요?

한국 크몽·숨고 기준 평균 데이터예요. 1개월차: 015만원(포트폴리오 + 첫 의뢰). 2개월차: 1540만원(후기 5건 누적, 단가 인상). 3개월차: 30~80만원(반복 고객 + 분야 특화). 첫 달 매출 0이라고 좌절 금지, 후기 5건이 분기점이에요.

자막 결과물 파일 형식은 어떻게 납품하나요?

SRT(범용, 모든 플레이어 호환) + 영상에 자막 박힌 MP4(즉시 업로드용) 2종 동시 납품이 표준. 추가로 발화자 표시·강조 단어 처리한 영상은 1~2배 추가 단가 책정. 폰트·색상까지 커스텀하면 5,000원 추가가 시장가예요.

자막 단가 협상 시 가장 효과적인 멘트가 뭔가요?

"VREW + 사람 검수로 95% 정확도를 보장합니다. 발화자 이름·전문 용어는 사전에 시트 받아 100% 정확하게 처리해요"가 90% 통하는 멘트예요. 정확도 수치 + 차별화 포인트 1개를 한 문장에 담는 게 핵심. 비교 견적 받은 고객도 이 멘트에 마음 돌리는 비율 높아요.

자막 부업이 본업 수준으로 자리잡으려면 얼마나 걸려요?

월 200만원 이상 안정적 수익까지 평균 69개월. 첫 3개월 기초 + 다음 3개월 특화 분야 + 마지막 3개월 정기 계약 확보 단계로 진행해요. 영어·일어 능통자는 단가 23배라 더 빨라요. 본업 사이드로 시작해서 매출 안정 후 전환 결정 권장.

자막 작업하면서 가장 자주 받는 클라이언트 요청은요?

순위는 ① 발화자 이름 자동 표시(VREW 기능 활용) ② 핵심 단어 색상 강조(노란색·빨간색) ③ 자막 위치 조정(얼굴 안 가리게) ④ 폰트 변경(Black Han Sans, 고도체) ⑤ 영상에 자막 박아서 납품 순이에요. 5가지 옵션을 패키지화하면 단가 +30~50% 책정 가능해요.

자막 부업 안정화 후 매출 다각화 전략

월 매출 100만원 안정화된 후 추가 매출 확장 방법을 정리할게요. 단순히 작업량 늘리는 게 아니라 단가·고객·상품 다각화로 매출 천장 뚫는 패턴이에요.

먼저 단가 다각화부터요. 기본 자막에 부가 옵션을 패키지화하면 단가 +30~50%까지 자연스럽게 올라갑니다. 핵심 옵션은 다섯 가지예요. 발화자 이름 자동 표시, 핵심 단어 색상 강조, 자막 위치 정밀 조정, 폰트·디자인 커스텀, 영상에 자막 박아 납품. 처음엔 한두 가지 추가 옵션으로 시작하고, 후기 누적되면 풀패키지로 확장해요.

다음은 고객 다각화. 개인 크리에이터 위주에서 기업 영상·교육 회사·온라인 강의 플랫폼 같이 단가 3~5배인 시장 진입이 매출 확장 핵심이에요. 기업은 단가는 높지만 진입 장벽 있으니 첫 의뢰는 본업 인맥 활용 권장. 한 번 거래 성사되면 분기별 정기 의뢰로 자리 잡아요.

마지막은 상품 다각화. 자막 작업만으로는 시간 천장 있어요. 본인 채널 운영하면서 자막 노하우 강의·전자책·온라인 코칭 같은 디지털 상품 만들면 시간과 매출 분리 가능. 자막 부업 12~18개월 차에 강의·전자책 출시가 표준 로드맵이에요. 매출 200만원에서 500만원 도약 구간의 결정 변수가 디지털 상품화예요.

❓ 자주 묻는 질문 (FAQ)

한국어 AI 자막 가장 정확한 도구는?

VREW(보이저엑스, 한국 회사)가 한국어 정확도 95%+ 1위. CapCut·Submagic은 영어 강점이라 한국어 80% 수준. Descript는 영어 95%+ 한국어 85%. 한국어 위주면 VREW 무조건 추천.

자막 부업으로 월 얼마 벌 수 있나요?

초보(주 5시간): 월 30~80만원. 중급(주 20시간): 월 100~200만원. 고급(외국어 가능): 월 200~500만원. 자막 단가 영상 1분당 1,000~3,000원, AI로 1차 처리 후 사람 검수 모델이 시급 1.5~2.5만원.

자막 부업 어디서 시작하나요?

한국 — 크몽, 숨고, 유튜브 채널 직접 영업. 해외 — Rev.com, GoTranscript, Fiverr. 처음엔 본인 유튜브 채널 자막 만들면서 포트폴리오 쌓고, 후기 5건+ 쌓으면 외부 영업.

AI 자막을 그대로 써도 되나요?

절대 그대로 쓰지 마세요. AI는 95% 정확도여도 5%가 시청자 눈에 띄는 오타·오역. 발화자 이름·전문 용어·신조어는 거의 틀림. 사람 검수 + 발화자 표시 + 강조 효과 추가가 부업 가치의 핵심.

VREW와 CapCut 어느 쪽이 좋나요?

한국어 자막 메인이면 VREW. 영어·외국어 콘텐츠 + 영상 편집까지 한 도구로면 CapCut. VREW는 자막 전용 도구라 영상 편집 기능 약함, CapCut은 자막 + 편집 통합. 콘텐츠 성격에 맞춰 선택.

자막 만들 때 가장 중요한 5요소는?

① 정확한 텍스트 (오타·오역 제로) ② 적절한 분리 (1~2초 단위) ③ 가독성 (배경 대비 색상) ④ 위치 (얼굴·중요 화면 가리지 않음) ⑤ 강조 효과 (핵심 단어 색상·크기 차이). AI는 ①만 처리, 나머지는 사람 영역.

1시간 영상 자막 만드는 데 얼마나 걸리나요?

VREW 자동 생성 5분 + 사람 검수 30~60분 + 강조 효과 30분 = 총 1~2시간. 기존 수동 작업 4~6시간 대비 50~75% 시간 절감. 시급 1.5~2만원 기준 영상당 3~6만원 수익.

📚 함께 읽으면 좋은 글 (Related Posts)

AI로 수익창출 더 보기 →