710만개의 구어(口語), 음성으로 660시간 분량 유비쿼터스 시대에 대비, 일본어 데이터베이스 공개

HOME

[ 통권 192호 | ]

편집부
등록 2004-05-18 22:06:09

국립국어연구소와 통신종합연구소, 東京공업대학이 공동개발하고 있는 일본어의 언어자료 데이터베이스(DB)가 내년 봄에 일반에 공개되게 되었다. 자연스런 단어를 710만개, 660시간 분량의 음성을 수록할 예정으로 그 규모는 영국판 DB의 1,000만 단어, 1,220시간에 이어 세계 2위가 된다고 한다. 품사나 음성기호, 인토네이션을 나타내는 억양기호 등 언어연구에 필요한 정보도 아울러 등록한다. 유비쿼터스 시대를 대비한 음성인식, 음성합성기술의 연구개발에도 도움이 될 듯하다. 이 연구는 文部科學省의 과학기술진흥조정비의 대상이 된 연구 프로젝트 ‘구어의 언어적, 파라 언어적 구조의 해명에 기초한 구어공학의 구축’의 일환으로 진행되고 있다. 1,400명의 화자가 낸 음성을 디지털화하여 수록하고, 연구용 정보와 함께 차세대 정보교환언어인 XML(확장가능한 마크부(付) 언어)베이스로 검색할 수 있게 한다. 음성인식이나 자동요약 시스템 개발 등에 응용할 수 있다. 영국 내에서 일상적으로 사용되고 있는 구어를 모은 DB는 총 단어 수, 음성의 수록 시간 모두 일본어 DB를 상회하지만 일반에 공개하고 있는 것은 텍스트 정보 뿐으로 음성 그 자체를 공개하는 DB로서는 일본어판이 세계 최대 규모가 된다고 한다. (편집부)

기사를 사용하실 때는 아래 고유 링크 주소를 출처로 사용해주세요.

https://www.cerazine.net

프로필이미지

편집부 다른 기사 보기

[ 통권 192호 | ]

댓글 삭제

헤드라인

최신기사