HowtoAI
ai-tools2026-04-26 5 min read

AI 음성 텍스트 변환 5종 한국어 정확도 비교 — Whisper Naver CLOVA Otter

🤖
HowtoAI 편집팀AI 전문 에디터

AI 기술을 누구나 쉽게 활용할 수 있도록 실전 가이드를 작성합니다. ChatGPT, Claude, AI 자동화, SEO 분야를 전문으로 다룹니다.

📅 2026-04-26⏱️ 5 min read🌐 how-toai.com
목차 보기

회의록·인터뷰·강의 녹음을 자동으로 텍스트화하는 STT(Speech to Text) 도구 5종 비교 후기예요. 저도 작년부터 회의록 손으로 정리하는 시간 줄이려고 5종 다 써봤거든요.

결론부터 말하면 한국어는 Naver CLOVA Note가 압도적, 영어 혼용은 Whisper가 안정적이에요. 5종 정확도·속도·가격 실측 결과와 용도별 추천 정리했어요.

AI 음성 텍스트 변환 5종 비교

비교 대상 5종 개요

도구한국어 정확도무료 한도유료 가격
Naver CLOVA Note95%+월 200분월 9,900원 무제한
Daglo92%+월 100분월 9,900원 무제한
OpenAI Whisper90%+무제한 (셀프)$0.006/분 (API)
Otter75%월 300분월 16.99달러
Google Gemini Audio88%+분당 무료종량제

한국어 회의·인터뷰 1순위.

장점

  • 한국어 정확도 95%+ (전문 용어·고유명사 강함)
  • 발화자 자동 구분
  • AI 자동 요약 + 핵심 키워드
  • 한국 IP에서 빠른 응답
  • 무료 월 200분 충분

단점

  • 영어·중국어 혼용 시 정확도 80% 수준
  • 음악·잡음 있으면 70% 이하
  • 데이터 보안 측면 (네이버 클라우드 저장)

가격

  • 무료: 월 200분
  • 프리미엄: 월 9,900원 무제한

추천 용도

  • 한국어 회의·인터뷰
  • 일반 강의·세미나
  • 본인 음성 메모 정리

Daglo (2위 — 한국 스타트업)

CLOVA 대안, 가성비 좋음.

장점

  • 한국어 정확도 92%+
  • 1시간 음성 5분 처리 (속도 빠름)
  • AI 요약 + 토픽 분류
  • 깔끔한 UI

단점

  • CLOVA 대비 약간 정확도 낮음
  • 영어 처리 부족
  • 무료 한도 100분

가격

  • 무료: 월 100분
  • 유료: 월 9,900원 무제한

추천 용도

  • CLOVA 무료 한도 초과 시 보조
  • UI 깔끔함 선호

OpenAI Whisper (3위 — 셀프호스팅·영어 혼용)

기술자·민감 정보 처리에 최적.

장점

  • 무료 (셀프호스팅 시)
  • 다국어 100+ 지원
  • 영어 혼용 안정적
  • 데이터 외부 유출 0 (셀프)

단점

  • 한국어만 비교 시 CLOVA보다 5%p 낮음
  • 발화자 구분 별도 후처리 필요
  • 셀프호스팅 시 GPU 필요

가격

  • 셀프호스팅: 무료 (PC 사양 필요)
  • API (OpenAI): $0.006/분
  • Replicate: $0.001/분 ~

추천 용도

  • 법무·의료·금융 민감 정보
  • 영어·중국어 혼용 회의
  • 대량 처리 (월 1만 분+)

Otter (4위 — 실시간 회의 자막)

영어 회의 실시간 자막에 강함.

장점

  • 실시간 자막 + 검색
  • Zoom·Google Meet 통합
  • 영어 정확도 95%+
  • 협업 노트 기능

단점

  • 한국어 정확도 75% (낮음)
  • 한국어 발화자 구분 부정확
  • 가격 비쌈

가격

  • 무료: 월 300분
  • Pro: $16.99/월

추천 용도

  • 영어 회의 실시간
  • 글로벌 팀 회의

Google Gemini Audio (5위 — 멀티모달 처리)

AI와 통합된 음성 처리.

장점

  • 음성 + 이미지 + 텍스트 통합 분석
  • 한국어 정확도 88%+
  • AI 답변 자동 생성
  • 분당 무료

단점

  • API 사용 시 코딩 필요
  • UI 도구 부재 (Gemini Studio)
  • 사용 사례 제한적

가격

  • 무료: 분당 한도 있음
  • 종량제: 분당 매우 저렴

추천 용도

  • AI 개발자
  • 음성 + 이미지 동시 분석

정확도 실측 비교 (10분 회의록 기준)

같은 음성을 5종에 모두 처리.

테스트 환경

  • 5명 회의 (한국어 + 영어 용어 혼용)
  • 외장 마이크
  • 회의실 (잡음 적음)

단어 정확도

  • CLOVA Note: 96% (385/400 단어 정답)
  • Daglo: 93% (372/400)
  • Whisper Large-v3: 91% (364/400)
  • Gemini: 89% (356/400)
  • Otter: 78% (312/400)

발화자 구분 정확도

  • CLOVA Note: 95% (5명 모두 정확)
  • Daglo: 90%
  • Otter: 80%
  • Whisper: 별도 후처리 필요

용도별 추천 매트릭스

사용 상황1순위2순위
한국어 회의CLOVA NoteDaglo
영어 회의OtterWhisper
한·영 혼용WhisperCLOVA
인터뷰 (한국어)CLOVADaglo
강의 (한국어)CLOVADaglo
민감 정보Whisper (셀프)-
실시간 자막OtterZoom 자체
AI 분석 통합GeminiWhisper + Claude

정확도 올리는 5가지 팁

도구 무관 적용 가능한 팁.

1. 외장 마이크 사용

핸드폰·노트북 내장 마이크 → 외장 USB 마이크 (3~5만원)으로 정확도 20%p 향상.

2. 화자 거리 1m 이내

마이크와 화자 거리가 멀어질수록 급격히 정확도 하락.

3. 잡음 제거 사전 처리

Audacity 같은 도구로 배경 노이즈 제거 후 STT 처리.

4. 전문 용어 사전 등록

CLOVA·Daglo는 사용자 사전 기능 제공. 회사명·전문 용어 미리 등록.

5. AI 후처리

STT 결과를 Claude/ChatGPT로 다시 한 번 다듬기. 오타·문법·맥락 보정.

참고 자료

  • Naver CLOVA Note (clovanote.naver.com)
  • Daglo (daglo.ai)
  • OpenAI Whisper GitHub (github.com/openai/whisper)
  • Otter.ai (otter.ai)
  • Google Gemini API (ai.google.dev)

비슷한 AI 도구 가이드로 AI 번역기 5종 한국어 정확도Slack Otter AI 회의록, n8n 워크플로 GPT 연동도 함께 보세요.

결론 — 한국어 회의는 CLOVA, 그 외는 Whisper

한국어 회의록·인터뷰는 무조건 Naver CLOVA Note 1순위예요. 95%+ 정확도 + 발화자 구분 + 자동 요약까지 한국어에 특화된 모든 기능 제공.

영어 혼용 또는 민감 정보 처리는 Whisper 셀프호스팅이 답. 무료 + 데이터 보안 + 영어 강함의 조합. 본인 사용 패턴에 맞게 1~2개만 골라서 익숙해지는 게 효율 최대화 비결입니다.

실전 시나리오 — 주 10개 회의 PM의 STT 도입 한 달

서울 강남 IT 회사 PM D님(33세) 사례예요. 주 평균 회의 10개, 회의록 정리에 매주 6시간 소요하던 상황이에요.

  • 1주차: Naver CLOVA Note 무료(월 200분) 가입. 회의실 마이크 끄고 본인 노트북 외장 USB 마이크(3만원짜리)로 녹음. 5명 회의 1시간 = CLOVA 처리 7분 + 발화자 자동 분리 + AI 요약. 회의록 작성 시간 1시간 → 15분으로 단축
  • 2주차: 무료 한도 200분 소진, 프리미엄(월 9,900원) 결제. 매주 회의록 작성 시간 6시간 → 1시간 30분으로 안정화. 노션과 연동해서 자동 저장 워크플로 구축
  • 3주차: 영어 혼용 글로벌 회의 처리에 CLOVA 정확도 70%대로 떨어짐. Whisper Large-v3 로컬 설치(본인 PC RTX 3060)로 전환. 영어 회의는 Whisper, 한국어는 CLOVA로 분기
  • 4주차: 동료 3명에게 추천. 그중 PM 1명은 발화자 자동 구분이 결정적이었다고 평. 결재 라인에 "주 4시간 절감 = 월 16시간 = 시급 환산 80만원 가치"로 회사 법인 카드 결제 승인까지

월 9,900원이지만 시급 환산하면 ROI 무조건 흑자. 회의록 작성에 매주 5시간 이상 쓰는 직장인은 즉시 결제 권장.

환경별 추천 마이크와 녹음 세팅

마이크 선택이 정확도에 미치는 영향이 절대적이에요. 환경별 권장 세팅을 정리한 표예요.

환경추천 마이크가격예상 정확도
1대1 인터뷰Blue Snowball iCE7만원95%+
5명 회의Jabra Speak 51028만원92%+
강의·세미나RODE Wireless GO II35만원93%+
출장·이동iPhone Voice Memos(외장 마이크 X)0원(폰 자체)80~85%
예산 절약Maono PM320 USB3만 9,000원88~90%

회의실 콘퍼런스 마이크가 있어도 본인 노트북 외장 USB 마이크가 정확도 더 높을 때 많아요. 회의실 마이크는 천장 거리 1.5m 이상이라 거리에서 정확도 손실.

흔한 함정과 회피법

STT 도입 첫 달에 가장 많이 부딪치는 5가지 함정과 해결책이에요.

  • 회의실 천장 마이크에 의존: 천장 마이크는 거리 12m로 정확도 7080%대. 노트북 외장 USB 마이크로 화자 30cm 이내 거리 두면 90%+. 5만원 투자가 ROI 정답
  • 녹음 파일 그대로 STT 처리: 회의실 에어컨·노트북 팬 소음이 정확도 10~15%p 깎아요. Audacity로 노이즈 게이트 1번 돌리면 정확도 회복. 처리 시간 30초 추가 vs 정확도 +10%p의 거래
  • 민감 정보 회의 CLOVA 사용: 인사·법무·재무 회의는 클라우드 STT 약관상 위험. 셀프호스팅 Whisper로 처리하거나 회의록 정리 자체 포기. 정보보안팀 확인 필수
  • AI 요약 결과 그대로 보고: STT 9095% 정확도여도 510%는 발화자 이름·전문 용어·신조어에서 어김없이 틀림. 1.2배속으로 결과 한 번 훑어보는 5분 검수 필수
  • 외장 마이크 없이 본업 도입: 무료 한도만 쓰고 마이크 안 사면 "정확도 낮아서 못 쓰겠다"로 끝남. 3만원 마이크가 도입 성공의 결정 변수

자주 묻는 질문

CLOVA Note 무료 200분으로 한 달 충분해요?

주 평균 회의 1~2개 + 30분 인터뷰 1개 정도면 충분(월 약 150분). 주 5개 이상 회의나 강의 녹음 사용자는 첫 달 안에 한도 초과. 프리미엄 월 9,900원이 가성비 압도적이라 200분 다 쓰면 바로 결제 권장.

Daglo와 CLOVA 중에서 한 가지만 고른다면요?

CLOVA가 안전 선택. 정확도 95% vs 92%p, 발화자 구분 정확도 95% vs 90%로 CLOVA 우위. Daglo는 처리 속도가 1시간 영상 5분으로 빠른 게 강점이지만 정확도 차이가 결정적. 단 CLOVA 무료 200분 한도가 부족할 때 Daglo 100분 무료를 보조로 활용은 유효.

Whisper 셀프호스팅에 어떤 PC 사양이 필요해요?

GPU: RTX 3060(12GB) 이상 권장. RTX 4060 Ti·5060 Ti(16GB)면 여유. M1·M2 맥북도 잘 돌아감. CPU만: 1시간 영상에 60분 걸려 실용성 거의 없음. Whisper 셀프호스팅이 부담이면 Replicate(시간당 0.1~0.2달러) 클라우드 대안. 월 작업량 1만 분 이상부터 셀프호스팅 ROI 흑자.

발화자 구분 정확도가 떨어지는 경우는 언제예요?

5인 이상 회의 + 발화 겹침 많음 + 비슷한 목소리 톤(같은 성별 동년배) 조건일 때 정확도 70%대로 떨어짐. 회의 시작 시 각자 "안녕하세요, 박○○입니다" 자기소개 1줄씩 하면 정확도 90%+로 회복. 5초 투자로 정확도 +20%p.

영어 혼용 한국어 회의에서 가장 정확한 도구는요?

Whisper Large-v3 1순위. 한국어 정확도는 CLOVA보다 약간 낮지만 영어 단어(API, KPI, OKR 같은 IT 용어) 인식이 압도적. CLOVA는 영어 단어를 한글 발음으로 적어버림("에이피아이"로 잘못 인식). 한·영 혼용 비율 30% 이상 회의는 무조건 Whisper.

1시간 회의 녹음 파일 용량은 어느 정도예요?

MP3 128kbps 기준 약 60MB. WAV 무손실 기준 약 600MB. STT 처리에는 MP3로 충분. 단 음악·악기 같은 고주파 인식이 필요한 경우만 WAV. 회의실 녹음은 무조건 MP3 64~128kbps. 1년치 누적하면 압축 안 하면 수십 GB.

회의록 자동 정리 워크플로 어떻게 짜요?

표준 4단계예요. ① 녹음(외장 USB 마이크) ② STT 처리(CLOVA Note 자동 업로드) ③ Claude/ChatGPT 후처리("결정 사항 / 액션 아이템 / 다음 회의 주제 3섹션으로 정리") ④ 노션 자동 저장(API 연동 또는 수동 복붙). 총 처리 시간 회의 1시간당 약 15분. 매주 회의 5개 기준 주 1시간으로 정리 완료.

직장인 STT 도입 1년 차의 변화

STT 도입은 단기 효과보다 1년 단위 변화가 결정적이에요. 처음엔 회의록 작성 시간 단축에 초점을 두지만, 6개월 지나면 회의 자체의 질이 변하고 1년 지나면 본인 업무 패턴 자체가 바뀌어요. 단계별로 정리할게요.

도입 1개월 차에는 회의록 작성 시간이 평균 60% 줄어요. 매주 6시간 걸리던 작업이 2시간 30분으로. 시간 절감 자체에만 만족하는 단계예요.

3개월 차부터는 회의 집중도가 올라가요. 받아쓰기에 신경 안 쓰니까 토론에 집중. 발언 빈도도 늘고 핵심 의사결정에 직접 기여하는 비율이 늘어납니다. 동료들도 "더 적극적으로 참여한다"고 피드백 주는 경우 많아요.

6개월 차에 회의록 검색 기능 활용이 본격화돼요. "지난 분기 마케팅 회의에서 결정된 예산"같은 질문이 1분 안에 해결. 결정 뒤집기 사고 사실상 0건. 의사결정 일관성이 팀 단위로 올라갑니다.

9개월 차에 후처리 자동화가 정착해요. STT 결과를 Claude·ChatGPT로 후처리해서 결정 사항·액션 아이템·다음 논의 주제 3섹션 정리가 자동 워크플로로 자리 잡음. 회의록을 "쓰는 것"에서 "검토·확인하는 것"으로 본인 역할이 바뀝니다.

1년 차에 본인 업무 패턴 자체가 변해요. 회의 + 회의록 작성에 주 810시간 쓰던 사람이 회의 + 회의록 검토에 주 34시간만 사용. 절감된 5시간을 본업 핵심 작업에 투입해 성과 자체가 올라가는 단계. STT 도입의 진짜 효과는 1년 단위에서 보이는 이런 누적 변화예요. 첫 한 달 시간 단축에 만족하지 말고 1년 시점 본인 변화를 기대하면서 도입하는 게 정답이에요.

❓ 자주 묻는 질문 (FAQ)

한국어 STT 가장 정확한 도구는?

단어 정확도 기준 ① Naver CLOVA Note 95%+ ② Daglo 92%+ ③ OpenAI Whisper Large-v3 90%+ ④ Otter 75% ⑤ Google Gemini 88%. CLOVA가 한국어 특화 학습으로 1위. 단, 영어 혼용·전문 용어 많으면 Whisper가 더 안정.

Whisper는 무료인데 어떻게 쓰나요?

OpenAI가 모델 공개해서 본인 PC에 설치 가능. M1 Mac 또는 RTX 3060 이상 GPU면 1시간 음성 5~10분 처리. 클라우드 서비스(replicate.com·groq.com)에서 시간당 0.1~0.5달러로도 사용 가능.

회의록 자동화에 가장 추천하는 조합은?

Naver CLOVA Note (월 무료 200분) 또는 Daglo (월 무료 100분)로 시작, 분량 늘면 유료 전환. 영어 혼용 회의면 Whisper + Claude 후처리 조합. 일반 한국어 회의면 CLOVA가 압도적.

녹음 품질이 정확도에 얼마나 영향을 주나요?

결정적. 핸드폰 마이크 거리 1m → 정확도 60%, 30cm → 85%, 5cm 또는 외장 마이크 → 95%. 회의실 녹음은 콘퍼런스 마이크 또는 본인 노트북 외장 USB 마이크 권장. 환경 소음 최소화 필수.

발화자 구분(diarization)이 가능한가요?

CLOVA Note·Otter·Daglo는 자동 발화자 구분 가능. Whisper는 별도 후처리 필요(pyannote 같은 라이브러리 조합). 회의록 용도라면 CLOVA Note 압도적 편의성.

법적·민감 정보 녹음을 클라우드에 올려도 되나요?

법무·의료·금융 같은 민감 분야는 셀프호스팅 Whisper 권장. 본인 PC 또는 사내 서버에 설치하면 데이터 외부 유출 0. CLOVA·Otter 같은 클라우드는 약관상 분석 목적 데이터 학습 가능성 있어 민감 정보 비추천.

1시간 회의 처리 시간이 얼마나 걸리나요?

CLOVA Note 5~10분, Daglo 5분, Whisper Large-v3 (RTX 3060) 8분, Whisper Large-v3 (CPU) 60분, Otter 실시간. 실시간 회의 중 자막 필요하면 Otter, 사후 정리면 CLOVA·Daglo가 가성비 좋음.

📚 함께 읽으면 좋은 글 (Related Posts)

AI 도구 추천 더 보기 →