본문 바로가기
✏️ CS/용어

[용어] STT란 무엇인가?

by 개발한 너굴씨 2024. 4. 17.
728x90

 

 

 

 

정의 

 

STT(Speech To Text)란 음성인식 기능으로, 음성을 글자로 변환해주는 기술입니다. STT는 크게 음성 혹은 언어 데이터로부터 인식 네트워크 모델을 생성하는 오프라인 학습단계와 사용자의 음성을 인식하는 온라인 탐색 단계로 나뉩니다. 

 

 

 

 

처리과정

 

1. 전처리(Preprocessing) : 전처리 과정은 입력된 음성을 정제하는 과정입니다. 

 

전처리 과정에 활용되는 기술 

  • 음성 활동 탐지 : 사용자의 음성을 감지하고 검출하는 기술 
  • 음성 향상 : 사용자의 음성을 제외한 잡음을 제거하고 소리를 선명하게 하는 기술 
  • 화자 분리 : 말 하는 사람이 다수인 경우, 분리하는 기술 

 

2. 음성인식 : 정제 과정을 거친 다음 어쿠스틱 모델을 통해 음성 인식을 수행합니다. 어쿠스틱 모델은 인코더와 디코더로 나뉩니다. 

  • 인코더 : 음성 특징을 추출하는 역할 
  • 디코더 : 인코더에서 추출한 음성 특징을 활용해 글자를 예측하는 역할 

 

 

 

평가 방법

 

  • 텍스트 유사도 평가 : 음성 파일과 동일한 문자 파일을 준비하고 STT를 통해 나온 결과와 원본 문자 파일을 비교해 유사도를 비교하는 방법  

 

 

 

 

 

 

활용

 

  • 영상 자막을 자동으로 생성 
  • 강의 내용 텍스트 변환 
  • 스마트폰 음성인식 텍스트 변환 기능 

 

 

 

 

대표적인 알고리즘

 

HMM(Hidden Markov Model) 

 

HMM을 이해하기에 앞서 MM(Markov Model)에 대해 먼저 알아 볼 필요가 있습니다. 

 

 

마르코프 확률 (Markov Property)

 

마르코프 확률이란 현재의 상태가 일정 기간을 통해서만 결정되는 것입니다. 만약 현재 상태를 N+1이라고 가정하고 바로 직전 상태를 N이라고 가정한다면,  현재 N+1의 상태는 바로 직전 상태 N 혹은 (N + 1) - A의 상태에만 영향을 받아 결정됩니다. 

 

 

마르코프 모델 (Markov Model)

 

마르코프 확률이 일정 기간에 의해 현재 상태를 결정한다면 MM이란 어떠한 현상의 변화를 확률 모델로 표현한 것으로, 현재 관측이 바로 직전의 상태에 의해서만 결정되는 것입니다. 즉, 직전 과거에만 종속된 모델이라는 것입니다. 

 

 

히든 마르코프 모델 (Hidden Markov Model)

 

HMM에서 MM에 H 즉, Hidden이 붙은 이유는 이전 관측에 대한 상태가 숨겨져 있기 때문입니다. 

 

HMM은 세 개의 파라미터로 구성되어있습니다. λ = {𝜋, A, B}

 

 

HMM의 동작

  • HMM의 파라미터가 주어졌을 때, 주어진 관측이 나타날 확률 계산
  • HMM의 파라미터 가 주어졌을 때, 주어진 관측이 나타날 확률이 가장 높은 상태의 나열을 계산

 

 

 

728x90

'✏️ CS > 용어' 카테고리의 다른 글

프레임워크와 라이브러리의 차이는 무엇인가  (0) 2024.04.25

댓글