Sora 2 Pro vs Google Veo 3 — AI 비디오 생성 7가지 비교 2026년 5월 가격·품질
OpenAI Sora 2 Pro와 Google Veo 3.1을 가격·해상도·오디오 동기화·한국 활용 7가지 기준으로 비교. 5월 시점 1초당 단가, ChatGPT Pro·Google AI Ultra 진입 비용, 외주·유튜브 적용 시나리오까지 실측 데이터로 정리합니다.
AI 기술을 누구나 쉽게 활용할 수 있도록 실전 가이드를 작성합니다. ChatGPT, Claude, AI 자동화, SEO 분야를 전문으로 다룹니다.
회의록·인터뷰·강의 녹음을 자동으로 텍스트화하는 STT(Speech to Text) 도구 5종 비교 후기예요. 저도 작년부터 회의록 손으로 정리하는 시간 줄이려고 5종 다 써봤거든요.
결론부터 말하면 한국어는 Naver CLOVA Note가 압도적, 영어 혼용은 Whisper가 안정적이에요. 5종 정확도·속도·가격 실측 결과와 용도별 추천 정리했어요.
![]()
| 도구 | 한국어 정확도 | 무료 한도 | 유료 가격 |
|---|---|---|---|
| Naver CLOVA Note | 95%+ | 월 200분 | 월 9,900원 무제한 |
| Daglo | 92%+ | 월 100분 | 월 9,900원 무제한 |
| OpenAI Whisper | 90%+ | 무제한 (셀프) | $0.006/분 (API) |
| Otter | 75% | 월 300분 | 월 16.99달러 |
| Google Gemini Audio | 88%+ | 분당 무료 | 종량제 |
한국어 회의·인터뷰 1순위.
장점
단점
가격
추천 용도
CLOVA 대안, 가성비 좋음.
장점
단점
가격
추천 용도
기술자·민감 정보 처리에 최적.
장점
단점
가격
추천 용도
영어 회의 실시간 자막에 강함.
장점
단점
가격
추천 용도
AI와 통합된 음성 처리.
장점
단점
가격
추천 용도
같은 음성을 5종에 모두 처리.
테스트 환경
단어 정확도
발화자 구분 정확도
| 사용 상황 | 1순위 | 2순위 |
|---|---|---|
| 한국어 회의 | CLOVA Note | Daglo |
| 영어 회의 | Otter | Whisper |
| 한·영 혼용 | Whisper | CLOVA |
| 인터뷰 (한국어) | CLOVA | Daglo |
| 강의 (한국어) | CLOVA | Daglo |
| 민감 정보 | Whisper (셀프) | - |
| 실시간 자막 | Otter | Zoom 자체 |
| AI 분석 통합 | Gemini | Whisper + Claude |
도구 무관 적용 가능한 팁.
1. 외장 마이크 사용
핸드폰·노트북 내장 마이크 → 외장 USB 마이크 (3~5만원)으로 정확도 20%p 향상.
2. 화자 거리 1m 이내
마이크와 화자 거리가 멀어질수록 급격히 정확도 하락.
3. 잡음 제거 사전 처리
Audacity 같은 도구로 배경 노이즈 제거 후 STT 처리.
4. 전문 용어 사전 등록
CLOVA·Daglo는 사용자 사전 기능 제공. 회사명·전문 용어 미리 등록.
5. AI 후처리
STT 결과를 Claude/ChatGPT로 다시 한 번 다듬기. 오타·문법·맥락 보정.
비슷한 AI 도구 가이드로 AI 번역기 5종 한국어 정확도나 Slack Otter AI 회의록, n8n 워크플로 GPT 연동도 함께 보세요.
한국어 회의록·인터뷰는 무조건 Naver CLOVA Note 1순위예요. 95%+ 정확도 + 발화자 구분 + 자동 요약까지 한국어에 특화된 모든 기능 제공.
영어 혼용 또는 민감 정보 처리는 Whisper 셀프호스팅이 답. 무료 + 데이터 보안 + 영어 강함의 조합. 본인 사용 패턴에 맞게 1~2개만 골라서 익숙해지는 게 효율 최대화 비결입니다.
서울 강남 IT 회사 PM D님(33세) 사례예요. 주 평균 회의 10개, 회의록 정리에 매주 6시간 소요하던 상황이에요.
월 9,900원이지만 시급 환산하면 ROI 무조건 흑자. 회의록 작성에 매주 5시간 이상 쓰는 직장인은 즉시 결제 권장.
마이크 선택이 정확도에 미치는 영향이 절대적이에요. 환경별 권장 세팅을 정리한 표예요.
| 환경 | 추천 마이크 | 가격 | 예상 정확도 |
|---|---|---|---|
| 1대1 인터뷰 | Blue Snowball iCE | 7만원 | 95%+ |
| 5명 회의 | Jabra Speak 510 | 28만원 | 92%+ |
| 강의·세미나 | RODE Wireless GO II | 35만원 | 93%+ |
| 출장·이동 | iPhone Voice Memos(외장 마이크 X) | 0원(폰 자체) | 80~85% |
| 예산 절약 | Maono PM320 USB | 3만 9,000원 | 88~90% |
회의실 콘퍼런스 마이크가 있어도 본인 노트북 외장 USB 마이크가 정확도 더 높을 때 많아요. 회의실 마이크는 천장 거리 1.5m 이상이라 거리에서 정확도 손실.
STT 도입 첫 달에 가장 많이 부딪치는 5가지 함정과 해결책이에요.
주 평균 회의 1~2개 + 30분 인터뷰 1개 정도면 충분(월 약 150분). 주 5개 이상 회의나 강의 녹음 사용자는 첫 달 안에 한도 초과. 프리미엄 월 9,900원이 가성비 압도적이라 200분 다 쓰면 바로 결제 권장.
CLOVA가 안전 선택. 정확도 95% vs 92%p, 발화자 구분 정확도 95% vs 90%로 CLOVA 우위. Daglo는 처리 속도가 1시간 영상 5분으로 빠른 게 강점이지만 정확도 차이가 결정적. 단 CLOVA 무료 200분 한도가 부족할 때 Daglo 100분 무료를 보조로 활용은 유효.
GPU: RTX 3060(12GB) 이상 권장. RTX 4060 Ti·5060 Ti(16GB)면 여유. M1·M2 맥북도 잘 돌아감. CPU만: 1시간 영상에 60분 걸려 실용성 거의 없음. Whisper 셀프호스팅이 부담이면 Replicate(시간당 0.1~0.2달러) 클라우드 대안. 월 작업량 1만 분 이상부터 셀프호스팅 ROI 흑자.
5인 이상 회의 + 발화 겹침 많음 + 비슷한 목소리 톤(같은 성별 동년배) 조건일 때 정확도 70%대로 떨어짐. 회의 시작 시 각자 "안녕하세요, 박○○입니다" 자기소개 1줄씩 하면 정확도 90%+로 회복. 5초 투자로 정확도 +20%p.
Whisper Large-v3 1순위. 한국어 정확도는 CLOVA보다 약간 낮지만 영어 단어(API, KPI, OKR 같은 IT 용어) 인식이 압도적. CLOVA는 영어 단어를 한글 발음으로 적어버림("에이피아이"로 잘못 인식). 한·영 혼용 비율 30% 이상 회의는 무조건 Whisper.
MP3 128kbps 기준 약 60MB. WAV 무손실 기준 약 600MB. STT 처리에는 MP3로 충분. 단 음악·악기 같은 고주파 인식이 필요한 경우만 WAV. 회의실 녹음은 무조건 MP3 64~128kbps. 1년치 누적하면 압축 안 하면 수십 GB.
표준 4단계예요. ① 녹음(외장 USB 마이크) ② STT 처리(CLOVA Note 자동 업로드) ③ Claude/ChatGPT 후처리("결정 사항 / 액션 아이템 / 다음 회의 주제 3섹션으로 정리") ④ 노션 자동 저장(API 연동 또는 수동 복붙). 총 처리 시간 회의 1시간당 약 15분. 매주 회의 5개 기준 주 1시간으로 정리 완료.
STT 도입은 단기 효과보다 1년 단위 변화가 결정적이에요. 처음엔 회의록 작성 시간 단축에 초점을 두지만, 6개월 지나면 회의 자체의 질이 변하고 1년 지나면 본인 업무 패턴 자체가 바뀌어요. 단계별로 정리할게요.
도입 1개월 차에는 회의록 작성 시간이 평균 60% 줄어요. 매주 6시간 걸리던 작업이 2시간 30분으로. 시간 절감 자체에만 만족하는 단계예요.
3개월 차부터는 회의 집중도가 올라가요. 받아쓰기에 신경 안 쓰니까 토론에 집중. 발언 빈도도 늘고 핵심 의사결정에 직접 기여하는 비율이 늘어납니다. 동료들도 "더 적극적으로 참여한다"고 피드백 주는 경우 많아요.
6개월 차에 회의록 검색 기능 활용이 본격화돼요. "지난 분기 마케팅 회의에서 결정된 예산"같은 질문이 1분 안에 해결. 결정 뒤집기 사고 사실상 0건. 의사결정 일관성이 팀 단위로 올라갑니다.
9개월 차에 후처리 자동화가 정착해요. STT 결과를 Claude·ChatGPT로 후처리해서 결정 사항·액션 아이템·다음 논의 주제 3섹션 정리가 자동 워크플로로 자리 잡음. 회의록을 "쓰는 것"에서 "검토·확인하는 것"으로 본인 역할이 바뀝니다.
1년 차에 본인 업무 패턴 자체가 변해요. 회의 + 회의록 작성에 주 810시간 쓰던 사람이 회의 + 회의록 검토에 주 34시간만 사용. 절감된 5시간을 본업 핵심 작업에 투입해 성과 자체가 올라가는 단계. STT 도입의 진짜 효과는 1년 단위에서 보이는 이런 누적 변화예요. 첫 한 달 시간 단축에 만족하지 말고 1년 시점 본인 변화를 기대하면서 도입하는 게 정답이에요.
단어 정확도 기준 ① Naver CLOVA Note 95%+ ② Daglo 92%+ ③ OpenAI Whisper Large-v3 90%+ ④ Otter 75% ⑤ Google Gemini 88%. CLOVA가 한국어 특화 학습으로 1위. 단, 영어 혼용·전문 용어 많으면 Whisper가 더 안정.
OpenAI가 모델 공개해서 본인 PC에 설치 가능. M1 Mac 또는 RTX 3060 이상 GPU면 1시간 음성 5~10분 처리. 클라우드 서비스(replicate.com·groq.com)에서 시간당 0.1~0.5달러로도 사용 가능.
Naver CLOVA Note (월 무료 200분) 또는 Daglo (월 무료 100분)로 시작, 분량 늘면 유료 전환. 영어 혼용 회의면 Whisper + Claude 후처리 조합. 일반 한국어 회의면 CLOVA가 압도적.
결정적. 핸드폰 마이크 거리 1m → 정확도 60%, 30cm → 85%, 5cm 또는 외장 마이크 → 95%. 회의실 녹음은 콘퍼런스 마이크 또는 본인 노트북 외장 USB 마이크 권장. 환경 소음 최소화 필수.
CLOVA Note·Otter·Daglo는 자동 발화자 구분 가능. Whisper는 별도 후처리 필요(pyannote 같은 라이브러리 조합). 회의록 용도라면 CLOVA Note 압도적 편의성.
법무·의료·금융 같은 민감 분야는 셀프호스팅 Whisper 권장. 본인 PC 또는 사내 서버에 설치하면 데이터 외부 유출 0. CLOVA·Otter 같은 클라우드는 약관상 분석 목적 데이터 학습 가능성 있어 민감 정보 비추천.
CLOVA Note 5~10분, Daglo 5분, Whisper Large-v3 (RTX 3060) 8분, Whisper Large-v3 (CPU) 60분, Otter 실시간. 실시간 회의 중 자막 필요하면 Otter, 사후 정리면 CLOVA·Daglo가 가성비 좋음.