BizCrush 음성인식 벤치마크 공개
5
분

BizCrush
Growth
실제 사용 환경에서 STT 정확도를 비교합니다
"이 앱이 더 정확하게 받아써요.”
음성인식(STT) 서비스는 보통 이렇게 평가됩니다. 하지만 사람마다 사용하는 환경이 다르고, 체감도 다르기 때문에 객관적인 비교가 쉽지 않습니다.
BizCrush는 이러한 문제를 해결하기 위해 누구나 직접 확인하고 검증할 수 있는 공개 STT 벤치마크를 만들었습니다.
단순히 API를 호출해 성능을 측정하는 것이 아니라, 실제 사용자가 사용하는 앱을 그대로 실행하여 같은 음원을 들려주고 결과를 비교합니다. 점수뿐 아니라 원본 음원, 정답 전사, 앱의 전사 결과까지 모두 공개하여 누구나 직접 검토할 수 있는 환경을 만들었습니다.

BizCrush의 리더보드
왜 만들었을까요?
음성 인식 서비스들은 모두 자사의 서비스가 정확하다고 이야기합니다.
하지만 실제로 얼마나 정확한지, 어떤 환경에서 강한지, 어떤 환경에서 약한지는 객관적으로 비교하기 어렵습니다. 특히 조용한 사무실에서는 대부분의 서비스가 잘 동작합니다. 사용자가 정말 어려움을 겪는 상황은 여러 사람이 동시에 이야기하거나 주변 소음이 많은 환경입니다.
BizCrush는 이런 현실적인 환경에서 STT 서비스들이 실제로 얼마나 잘 동작하는지 공개적으로 비교하기 위해 이 벤치마크를 만들었습니다.
물론 BizCrush 역시 비교 대상 중 하나입니다. 그래서 오히려 점수만 공개하는 것이 아니라 정답 전사, 앱 결과, 채점 방식, 한계점까지 모두 공개했습니다.
이를 통해 누구나 직접 확인할 수 있는 접근 방식을 선택했습니다.
무엇이 다른가요?
대부분의 STT 벤치마크는 엔진 API를 직접 호출합니다. 하지만 실제 사용자는 API를 사용하지 않습니다. 그리고 대부분의 앱 서비스는 음성 인식 엔진 위에 자체적인 오디오 처리, 노이즈 제거, 후처리 기능을 추가합니다. 그래서 API 성능과 실제 사용 경험은 종종 다르게 나타납니다.
BizCrush 벤치마크는 사용자가 실제로 경험하는 전체 경로를 그대로 테스트합니다.
즉, 정답 음원을 재생하고, 안드로이드 에뮬레이터에서 실제 STT 앱을 실행한 뒤, 마이크 입력을 통해 음원을 전달하고, 앱이 출력한 결과를 그대로 수집합니다. 이를 통해 사용자가 실제로 사용하는 환경과 가장 유사한 방식으로 측정합니다.
테스트는 어떻게 진행될까요?
테스트는 다음 순서로 진행됩니다.
비즈크러시를 포함해, 테스트 대상 앱을 실행하고 녹음을 시작합니다.
정답 음원을 마이크 입력으로 전달합니다.
앱이 생성하는 실시간 전사를 수집합니다.
재생이 종료되면 최종 결과를 저장합니다.
정답과 비교해 점수를 계산합니다.
내부 검수를 거친 후 공개합니다.
모든 테스트 결과는 공개 전 사람이 직접 검토합니다.

테스트 상세 페이지
실시간 전사와 사후 전사를 구분합니다
많은 서비스는 녹음이 끝난 뒤 전사 결과를 다시 수정합니다. 예를 들어 구두점을 추가하거나 문장을 다듬거나, 혹은 잘못 인식한 단어를 교정하기도 합니다. 결과는 보기 좋아지지만 실제 음성 인식 성능은 가려질 수 있습니다.
그래서 BizCrush는 두 가지를 분리해 측정합니다.
실시간 전사
사용자가 회의 중 화면에서 실제로 보는 결과를 측정합니다.
사후 전사
녹음 종료 후 후처리가 적용된 결과를 측정합니다. 두 결과를 모두 제공하는 서비스는 각각 별도로 게시하여 후처리가 실제로 어떤 영향을 주는지 확인할 수 있도록 했습니다. 현재 클로바노트와 같은 노트형 서비스의 사후 전사 결과를 앱별로 순차 게시하고 있습니다.
점수는 어떻게 계산하나요?
점수는 WER(Word Error Rate) 또는 CER(Character Error Rate)를 사용합니다. 숫자가 낮을수록 정확합니다.
오류는 다음 네 가지로 구분됩니다.
치환(Substitution) : 다른 단어로 잘못 인식
삭제(Deletion) : 단어를 놓침
삽입(Insertion) : 실제로 말하지 않은 단어 추가
일치(Correct) : 정확하게 인식
예를 들어, 정답이
내일 오후 세 시에 회의합니다
전사 결과
내일 오후 네 시에 회의합니다
라면 "세"가 "네"로 잘못 인식되었으므로 치환 오류 1개가 발생합니다.
시끄러운 환경에서는 얼마나 차이가 날까요?
현재 공개된 테스트 중 가장 어려운 음원은 여러 사람이 동시에 대화하는 디너파티 녹음입니다. 원거리 마이크로 수집되었으며, 일부 구간은 사람이 들어도 내용을 파악하기 어려운 수준입니다.
이 테스트에서:
BizCrush : 49.6% WER
경쟁 서비스 : 약 72% WER
를 기록했습니다.
조용한 환경에서는 대부분의 서비스가 3~5% 수준으로 비슷합니다. 하지만 실제 사용자가 가장 어려움을 겪는 소음 환경에서는 상당한 차이가 발생했습니다. 중요한 것은 절대적인 숫자가 아니라 같은 음원에서 어떤 서비스가 더 적게 틀리는지입니다.
단순한 표기 차이는 오류로 보지 않았습니다
실제 음성인식 성능을 평가하기 위해 표기상의 차이는 최대한 제거합니다.
예를 들어:
대소문자 차이
구두점 차이
HTML 엔티티
통화 단위 표기
퍼센트 표기
등은 동일한 의미라면 같은 것으로 처리하였습니다.
한국어의 경우에도 "할 수 있다"와 "할수있다"처럼 발음은 동일하지만 표기만 다른 경우가 존재합니다. 이런 사례는 사람이 직접 검토하여 음향적으로 동일하다고 판단되면 일치 처리하였습니다.
현재 공개된 테스트 데이터
현재는 라이선스 문제가 없는 공개 음원만 사용하고 있습니다.

테스트 클립 페이지
Dinner Party (Amazon DiPCo)
영어
높은 소음
15분 49초
VOA Korea - 파쿠르
한국어
낮은 소음
5분 37초
VOA - Texas Korean Community
영어
낮은 소음
9분 3초
모든 음원은 출처와 함께 공개됩니다.
여기에 더해, BizCrush는 라이선스 문제가 없는 자체 제작 녹음본도 직접 만들어 테스트셋을 매주 확장하고 있습니다. 첫 시리즈는 *BizCrush Board Game Lunch(BGL)*로, 실제 대화 상황을 정답 전사와 함께 큐레이션해 추가합니다. 자체 녹음본에는 별도의 벤치마크 사용 라이선스가 적용되며, 관련 문구는 페이지 푸터와 [테스트 방식]의 라이선스·출처 섹션에 명시했습니다.
결과는 소음 환경에서 갈립니다
현재 공개된 결과를 보면 조용한 환경에서는 대부분의 서비스가 매우 높은 정확도를 보입니다. 하지만 소음이 많아질수록 차이가 커집니다.
그래서 BizCrush 벤치마크는 평균 점수만 보여주지 않고,
낮은 소음
높은 소음
별도로 구분하여 공개하여 실제 사용 환경을 더 정확하게 반영하였습니다.

테스트 기록 예시
투명성을 최우선으로 합니다
모든 공개 테스트는 다음 정보를 함께 제공합니다.
원본 음원
정답 전사
앱 전사 결과
오류 분석
WER/CER 계산 결과를 통해,
누구나 직접 확인하고 다시 계산할 수 있습니다. 또한 글로벌 대형 서비스를 제외한 비교 대상은 익명으로 처리하여 불필요한 서비스 식별을 방지하였습니다. 원본 음원은 페이지에서 직접 확인하고 검증할 수 있으며, 무단 재사용을 막기 위해 일괄 다운로드는 제한하고 있습니다.
What’s next
현재 이 벤치마크는 실제 앱 기반 테스트에 집중하고 있습니다. 향후에는 다음 항목들을 추가할 예정인데요.
API 직접 테스트
더 다양한 언어
더 많은 소음 환경
노트형 서비스의 사후 전사 평가
앱 버전 자동 추적
좋은 벤치마크는 신뢰할 수 있는 데이터를 꾸준히 쌓아가는 것이라고 생각합니다. 앞으로도 BizCrush는 실제 사용 환경에 가장 가까운 STT 평가 기준을 만들어 나가겠습니다.

