• 최종편집 2024-04-22(월)
 
1.jpg
▲ 자료=미디어젠

 

[뉴스인사이트] 이진용 기자=음성인식 솔루션 전문기업 미디어젠이 한국전자통신연구원(ETRI)의 연구 인력 현장 지원 프로그램을 통해 기존에 음성 스펙트럼 채널이 1개인 것을 보완해 RGB 3채널을 이용한 음성 스펙트럼을 개발했다.


E2E 시대를 맞아 눈부신 성능 향상을 이루며 인식 성능 면에서 정점에 오른 심층 학습망 기반의 음성 인식 시스템은 트랜스포머 알고리즘에 기반을 두고 있다. 트랜스포머 알고리즘은 많은 양의 학습 데이터를 소화하며 그 성능을 향상해 왔다. 그러나 초거대 용량의 학습 데이터 출현으로 그 성능 향상 정도는 어느 정도 포화 상태에 이른 상황이다. 이런 상황에서 음성 인식 성능을 높이기 위해 음성 인식 특징을 추출하는 새로운 방법을 모색하는 등 네트워크 아키텍처뿐만 아니라 다양한 기술 분야의 연구가 요구되고 있다.

현재 가장 널리 사용되는 음성 인식 특징은 ‘로그 멜 스펙트럼’이지만, 이 특징은 음성 신호의 다양한 생성 과정을 포함하지 못한다는 단점이 있다. 또 심층 학습망의 특성상 입력이 되는 특징이 다양한 음성의 특징적 요소를 각각 표현해줄 수 있어야 이를 바탕으로 더 지능적인 학습을 진행할 수 있다.(그림1)

이에 따라 미디어젠은 ETRI 연구 인력 현장 지원 프로그램을 통해 음성 발성 모델을 활용, 분석된 성도 필터 정보와 신호 정보를 채널화함으로써 RGB 구성 요소를 갖는 컬러 스펙트럼을 개발했다. 일반적으로 성도 필터 정보는 음소를 표현하기에 적합하며 배경 잡음에 상대적으로 강인한 특성이 있고, 신호 정보는 음성 정보뿐만 아니라 발성 개인의 특성을 잘 표현해주는 특성이 있다. 컬러 스펙트럼에서는 이런 정보를 분석한 뒤 특징화해 음성 인식 시스템을 학습할 때 이를 심층 학습망에 알려줌으로써 인공지능이 음성 인식에 필요한 특징 정보를 선택하도록 도움을 준다. 이를 증명하기 위해 수행된 텐서플로(Tensorflow) 기반 딥스피치2(DeepSpeech2) 음성 인식 시스템 실험에서 기존 로그 멜 스펙트럼 음성인식 시스템보다 20% 이상의 ERR 성능 향상이 나타나는 것을 확인했다.(그림2)

미디어젠 관계자는 “ETRI 연구 인력 현장 지원 프로그램을 통해 개발된 컬러 스펙트럼은 음성 인식뿐만 아니라 TTS, 화자 분리, 감정 인식 등 음성 기반의 모든 분야 및 오디오 관련 응용 분야 등 활용 범위가 매우 넓다”며 “음성 인식 성능 향상의 경우, 이미지 처리를 위해 개발된 다양한 네트워크 아키텍처들을 채용해 더 다양하고 효율적인 음성 인식 시스템 구성이 가능할 것으로 기대된다”고 말했다.


※ E2E : E2E(Ear-to-Eye)는 ‘고객 커뮤니케이션 채널이 기존의 음성 기반 서비스(Auditory Interface)에서 진화하여 웹페이지 기반의 시각적 서비스(Web-based Visual IVR)를 함께 제공하는 과정 및 결과’를 뜻하는 용어임(나무위키 자료)

태그

전체댓글 0

비밀번호 :
메일보내기닫기
기사제목
RGB 3채널 이용한 컬러 음성 스펙트럼 개발
보내는 분 이메일
받는 분 이메일