BizCrush 음성인식 벤치마크 공개

Product

BizCrush 음성인식 벤치마크 공개

2026년 6월 8일

분

BizCrush

Growth

INDEX

실제 앱 사용 흐름에 가까운 방식으로 음성 인식 정확도를 비교합니다.

“어떤 STT 서비스가 더 정확할까?”

음성인식(STT) 서비스를 사용할 때 가장 자주 나오는 질문입니다. 하지만 사용 환경은 사람마다 다르고, 체감 정확도도 상황에 따라 달라집니다. 그래서 단순한 사용 후기만으로는 여러 서비스를 공정하게 비교하기 어렵습니다.

BizCrush는 이 문제를 해결하기 위해 같은 조건에서 STT 결과를 비교할 수 있는 공개 벤치마크를 만들었습니다.

이 벤치마크는 단순히 엔진 API를 호출해 성능을 측정하는 방식이 아닙니다. 실제 사용자가 접하는 앱을 실행하고, 동일한 음원을 동일한 입력 경로로 전달한 뒤, 앱이 생성한 전사 결과를 비교합니다.

점수만 보여주는 것이 아니라 원본 음원, 기준 전사문, 앱 전사 결과, 오류 분석까지 함께 공개해 누구나 페이지에서 직접 확인할 수 있도록 했습니다.

2026.06.12 기준. 최신 결과는 벤치마크 페이지에서 확인할 수 있습니다.

왜 만들었을까요?

많은 음성 인식 서비스는 높은 정확도를 강조합니다.

하지만 실제로 어느 정도 정확한지, 어떤 환경에서 강하고 어떤 환경에서 약한지는 같은 기준으로 비교하기 어렵습니다. 특히 조용한 사무실에서는 대부분의 서비스가 비교적 잘 동작합니다. 사용자가 실제로 어려움을 겪는 상황은 여러 사람이 동시에 말하거나 주변 소음이 많은 환경입니다.

BizCrush는 이런 현실적인 조건에서 STT 서비스들이 어느 정도의 결과를 내는지 공개적으로 비교하기 위해 이 벤치마크를 만들었습니다.

물론 BizCrush 역시 비교 대상 중 하나입니다. 그래서 결과 점수만 공개하지 않고, 기준 전사문, 앱 전사 결과, 채점 방식, 한계점까지 함께 공개합니다. 이해관계가 있는 벤치마크일수록 결과를 직접 확인할 수 있어야 한다고 보기 때문입니다.

무엇이 다른가요?

대부분의 STT 벤치마크는 음성인식 엔진 API를 직접 호출해 성능을 측정합니다. 이 방식은 엔진 자체의 성능을 확인하는 데 유용합니다.

하지만 일반 사용자가 회의록 앱이나 노트형 서비스를 사용할 때는 API 자체가 아니라 앱이 제공하는 전체 경험을 접합니다. 많은 앱은 음성 인식 엔진 위에 자체적인 오디오 처리, 노이즈 제거, 후처리 기능을 추가합니다. 그래서 API 성능과 실제 앱에서 보이는 전사 결과는 다르게 나타날 수 있습니다.

BizCrush 벤치마크는 이 차이를 확인하기 위해 실제 앱 사용 흐름에 가까운 방식으로 테스트합니다.

기준 음원을 재생하고, 안드로이드 에뮬레이터에서 실제 STT 앱을 실행한 뒤, 마이크 입력 경로를 통해 음원을 전달합니다. 이후 앱이 출력한 전사 결과를 그대로 수집해 기준 전사문과 비교합니다.

이 방식은 모든 실제 사용 환경을 완벽하게 재현하는 것은 아닙니다. 다만 동일한 음원, 동일한 입력 방식, 동일한 채점 기준을 적용함으로써 각 서비스가 같은 조건에서 어떤 결과를 내는지 비교할 수 있게 합니다.

테스트는 어떻게 진행될까요?

테스트는 다음 순서로 진행됩니다.

BizCrush를 포함한 테스트 대상 앱을 실행하고 녹음을 시작합니다.
기준 음원을 마이크 입력 경로로 전달합니다.
앱이 생성하는 실시간 전사 결과를 수집합니다.
재생이 종료되면 최종 결과를 저장합니다.
기준 전사문과 비교해 WER 또는 CER 점수를 계산합니다.
표기 차이와 실제 인식 오류를 구분하기 위해 수동 검토를 진행한 뒤 공개합니다.

모든 테스트 결과는 공개 전에 사람이 직접 검토합니다. 이 과정은 점수를 임의로 조정하기 위한 절차가 아닙니다. 자동 계산 과정에서 대소문자, 구두점, 띄어쓰기, 숫자 표기처럼 음성 인식 성능과 직접 관련 없는 차이가 실제 인식 오류처럼 처리되지 않았는지 확인하기 위한 절차입니다.

실시간 전사와 후처리 전사를 구분합니다

많은 서비스는 녹음이 끝난 뒤 전사 결과를 다시 다듬습니다. 예를 들어 구두점을 추가하거나 문장을 정리하거나 잘못 인식한 단어를 교정하기도 합니다.

이런 후처리는 사용자 경험을 개선하는 중요한 기능입니다. 다만 실시간으로 화면에 표시되는 인식 결과와 녹음 종료 후 보정된 결과는 구분해서 볼 필요가 있습니다.

그래서 BizCrush는 두 가지 결과를 나누어 측정합니다.

실시간 전사

사용자가 회의 중 화면에서 실제로 보게 되는 전사 결과를 측정합니다.

후처리 전사

녹음이 끝난 뒤 후처리가 적용된 최종 전사 결과를 측정합니다.

두 결과를 모두 제공하는 서비스는 각각 별도로 게시합니다. 이를 통해 후처리가 결과에 어떤 영향을 주는지 확인할 수 있습니다. 회의록, 노트형 서비스의 후처리 전사 결과도 서비스별로 순차적으로 추가하고 있습니다.

점수는 어떻게 계산하나요?

점수는 WER(Word Error Rate) 또는 CER(Character Error Rate)을 사용합니다. 두 지표 모두 숫자가 낮을수록 정확도가 높습니다.

WER은 기준 전사문과 비교했을 때 바뀐 단어, 빠진 단어, 추가된 단어의 비율을 계산합니다. CER은 같은 개념을 문자 단위로 계산합니다.

오류는 다음 네 가지로 구분합니다.

치환(Substitution): 다른 단어로 잘못 인식한 경우
삭제(Deletion): 말한 단어를 놓친 경우
삽입(Insertion): 실제로 말하지 않은 단어를 추가한 경우
일치(Correct): 정확하게 인식한 경우

예를 들어 기준 전사문이

내일 오후 세 시에 회의합니다

이고, 앱 전사 결과가

내일 오후 네 시에 회의합니다

라면 “세”가 “네”로 잘못 인식되었으므로 치환 오류 1개가 발생합니다.

다만 실제 전사 결과에는 대소문자, 구두점, 띄어쓰기, 숫자 표기, 단위 표기처럼 음성 인식 성능과 직접 관련 없는 차이가 포함될 수 있습니다. 한국어처럼 띄어쓰기와 어절 구분의 영향을 받는 언어에서는 WER과 CER을 함께 보는 것도 중요합니다.

이런 표기 차이가 자동 계산 과정에서 오류로 처리될 수 있기 때문에, BizCrush는 자동 계산 후 사람이 직접 검토하여 표기 차이와 실제 인식 오류를 구분합니다.

이 기준은 특정 언어나 특정 서비스에만 적용하지 않습니다. 모든 테스트 결과에 동일한 기준으로 적용합니다.

시끄러운 환경에서는 얼마나 차이가 날까요?

조용한 환경에서는 대부분의 서비스가 높은 정확도를 보입니다. 하지만 주변 소음이 많거나 여러 사람이 동시에 말하는 환경에서는 서비스 간 차이가 더 크게 나타납니다.

이 차이는 실제 사용 환경에서 중요합니다.

회의실, 컨퍼런스장, 카페, 전시회, 네트워킹 행사처럼 사람이 실제로 대화하는 장소는 항상 조용하지 않습니다. 누군가는 멀리서 말하고, 여러 사람이 동시에 반응하고, 주변에서는 다른 대화와 배경음이 섞입니다.

BizCrush 벤치마크는 이런 현실적인 조건을 반영하기 위해 소음 수준을 구분하여 결과를 공개합니다. 중요한 것은 특정 수치 하나가 아니라, 같은 음원과 같은 입력 방식, 같은 채점 기준에서 어떤 서비스가 더 적게 틀리는지입니다.

최신 결과는 벤치마크 페이지에서 확인할 수 있습니다.

표기 차이와 인식 오류를 구분합니다

실제 음성 인식 성능을 평가하기 위해 표기상의 차이는 최대한 구분해서 처리합니다.

예를 들어 다음과 같은 차이는 의미가 같다면 오류로 보지 않습니다.

대소문자 차이
구두점 차이
HTML 엔티티
통화 단위 표기
퍼센트 표기
숫자 표기
띄어쓰기 차이
발음과 의미는 같지만 표기만 다른 경우

이런 사례는 사람이 직접 검토합니다. 실제 음성 인식 오류가 아니라고 판단되면 일치로 처리합니다.

이 과정은 특정 서비스에 유리하게 적용하지 않습니다. 모든 서비스 결과에 동일한 기준으로 적용합니다.

테스트 데이터는 어떻게 공개되나요?

현재 테스트 데이터는 사용 권한을 확보했거나 공개 페이지에서 검증 가능한 음원을 중심으로 구성하고 있습니다.

각 테스트 상세 페이지에서는 다음 정보를 함께 확인할 수 있습니다.

원본 음원
기준 전사문
앱 전사 결과
오류 분석
WER/CER 계산 결과
채점 및 검수 기준

테스트 데이터는 품질과 라이선스 조건을 검토한 뒤 순차적으로 추가됩니다. 최신 테스트 목록과 결과는 벤치마크 페이지에서 확인할 수 있습니다.

2026.06.12 기준. 테스트 기록은 이후 업데이트될 수 있습니다.

공개 범위와 제한 사항

모든 공개 테스트는 원본 음원, 기준 전사문, 앱 전사 결과, 오류 분석, WER/CER 계산 결과를 함께 제공합니다.

이를 통해 누구나 페이지에서 직접 확인하고 다시 계산해 볼 수 있습니다.

비교 대상 서비스는 필요에 따라 익명으로 처리합니다. 특정 서비스를 식별하거나 공격하기 위한 목적이 아니라, 동일한 조건에서 실제 결과를 비교하기 위한 목적이기 때문입니다. 익명 처리된 경우에도 동일한 입력, 동일한 채점 기준, 동일한 공개 항목을 적용합니다.

원본 음원은 페이지에서 직접 확인하고 검증할 수 있습니다. 다만 음원 파일의 무단 저장, 재배포, 재사용을 막기 위해 다운로드는 일괄 제한하고 있습니다.

2026.06.12 기준. 테스트 클립은 이후 업데이트될 수 있습니다.

외부 출처 음원의 경우 원본 자료 링크를 함께 제공하며, BizCrush가 직접 제작한 테스트 데이터는 페이지 내 검증 목적으로만 공개됩니다. 자체 제작 녹음본은 BizCrush의 자산입니다. 무단 저장, 재배포, 또는 별도 벤치마크 테스트 용도로의 재사용은 허용되지 않습니다. 학교, 연구기관, 기업 등 외부에서 해당 데이터를 사용하고자 할 경우 BizCrush와 별도의 협의가 필요합니다.

테스트 결과를 해석할 때 알아야 할 점

이 벤치마크는 모든 실제 사용 환경을 완전히 대표하지는 않습니다. 실제 결과는 기기 종류, 마이크 품질, 네트워크 상태, 앱 버전, 발화 위치, 주변 소음의 성격에 따라 달라질 수 있습니다.

따라서 BizCrush 벤치마크의 결과는 특정 테스트 조건에서 같은 음원과 같은 입력 방식, 같은 채점 기준으로 비교한 지표로 보는 것이 적절합니다.

중요한 것은 하나의 점수만 보는 것이 아니라, 어떤 환경에서 어떤 유형의 오류가 발생했는지 함께 확인하는 것입니다. 그래서 BizCrush는 점수와 함께 원본 음원, 기준 전사문, 앱 전사 결과, 오류 분석을 함께 제공합니다.

앞으로의 계획

현재 이 벤치마크는 실제 앱 기반 테스트에 집중하고 있습니다. 앞으로는 다음 항목들을 순차적으로 추가할 예정입니다.

더 다양한 소음 환경
API 직접 테스트
더 다양한 언어 테스트

API 직접 테스트는 실제 앱 기반 결과를 대체하기보다는 엔진 성능과 앱 사용 경험의 차이를 함께 보기 위한 보완 지표로 추가할 예정입니다.

다양한 언어 테스트도 순차적으로 확장할 계획입니다. 다만 언어별 테스트는 기준 전사문 작성과 검수 가능성이 함께 확보되어야 합니다. 따라서 단순히 언어 수를 늘리기보다, 검증 가능한 데이터를 안정적으로 제공할 수 있는 방향으로 확장할 예정입니다.

좋은 벤치마크는 신뢰할 수 있는 데이터를 꾸준히 쌓아가는 데서 시작한다고 봅니다. 앞으로도 BizCrush는 실제 앱 사용 흐름에 가까운 STT 평가 기준을 만들어 가겠습니다.

BizCrush Benchmark 페이지 바로가기