등록 : 2018.07.04 15:06
수정 : 2018.07.04 20:15
네이버 “4시간 음성샘플 있으면
특정인 목소리 복제 기술 개발”
다른 업체들은 최대 100시간 필요
하반기엔 ‘화자인식’ 기술 발표도
|
지난달 28일 일본 도쿄에서 열린 ‘라인 컨퍼런스 2018'에서 네이버의 자회사인 라인의 마스다 준 최고전략마케팅 임원이 자신의 목소리로 대답하는 클로바 프렌즈 미니를 시연해보이고 있다. 네이버 제공
|
바쁜 부모를 대신해 인공지능(AI) 스피커가 부모의 목소리로 아이들에게 동화책을 읽어줄 수 있을까? 내가 좋아하는 연예인이 아침 잠을 깨워주고, 음악을 골라 재생해주며, 오늘 하루 일정을 정리해 알려주게 할 수 없을까?
인공지능이 특정인의 음성을 똑같이 흉내내는 ‘음성합성’ 기술이라면 가능하다. 그러나 이를 위해서는 그 사람의 억양이나 악센트·발음 등을 분석해야 하고, 그외 다양한 특징들도 자연스럽게 재생하기 위한 ‘공부’에 필요한 데이터가 많이 필요하다. 그런데 네이버가 4시간의 음성녹음만 있으면 특정인의 목소리를 구현해낼 수 있는 기술을 개발해 곧 상용화할 예정이라고 밝혀 주목된다.
네이버는 4일 오전 서울 강남구 역삼동 네이버 스타트업 팩토리에서 ‘테크포럼’을 열어, 그동안 개발한 음성인식과 음성합성 기술들을 소개했다. 음성합성 기술은 이미 여러 분야에서 쓰이고 있다. 네이버가 기사를 읽어주기 시작한 것이 2015년이고, 2016년엔 배우 유인나가 읽어주는 오디오북이 나오기도 했다. 지난해엔 ‘감성’을 더한 클로바 서비스가 출시됐다. 다음 단계가 바로 사용자가 원하는 목소리를 구현하는 ‘개인화’다.
김재민 네이버 음성합성 리더는 포럼에서 발표를 통해 “특정인의 목소리를 구현하는 음성합성의 핵심은 음성녹음 시간과 대용량 데이터베이스”라며 “딥러닝 등을 접목한 하이브리드 음성합성 엔진을 통해 4시간 분량의 녹음이면 음성합성이 가능하다”고 말했다. 그동안 다른 업체들은 40~100시간 분량이 필요하다고 밝혀왔다.
특정인의 음성을 완벽하게 흉내낸다면 잘못된 용도로 사용되진 않을까? 지난 5월 구글이 선보인 비서 소프트웨어 ‘듀플렉스’는 식당·미용실에 전화를 걸어 사람과 대화하며 예약까지 해냈다. 그러나 기계가 사람 목소리를 흉내내는 것이 윤리적인 문제가 발생할 수 있다는 지적을 받은 뒤, 사전에 인공지능임을 알리고 동작하는 방식으로 시범서비스 내용을 바꿨다. 김 리더는 “합성된 음성에 배경음악을 깔거나, 사람은 들을 수 없는 영역에 워터마크를 집어넣는 방식도 가능하다”며 “구글과 같은 방식이 가장 현실적인 방법이라고 생각한다”고 말했다.
네이버는 말하는 사람을 구분해낼 수 있는 ‘화자인식’ 기술도 하반기 중 발표할 예정이라고 밝혔다. 이를테면, 가정에서 사용하는 인공지능 스피커에서 말하는 사람이 ‘누구’인지를 가려내거나 인공지능이 특정인의 음성에만 반응하도록 하는 것이다.
네이버가 이처럼 음성인식 분야에서 도드라진 성과를 낼 수 있는 것은 많은 데이터 덕분이다. 카페·블로그·지식인 등 플랫폼에 쌓여있는 ‘한국어’ 데이터베이스가 경쟁업체들에 비해 많다. “10분마다 기억을 잃는 사람이 나오는 영화를 알려줘”라는 질문에 대한 답은 ‘네이버 영화’ 서비스에서 찾는 식이다. 강인호 언어처리 리더는 “2500만건에 달하는 지식인 문서로부터 사용자의 언어·표현·행동을 습득했다”며 “워낙 좋은 데이터베이스가 있어서 압도적으로 유리하다”고 말했다. 이를 바탕으로 네이버 지식인에 인공지능 답변을 하는 ‘지식 아이(i)’는 지난해 6월 서비스를 시작한 지 1년 남짓 만에 이용자 채택 답변수와 답변 채택률에 따라 산정되는 ‘등급’이 최고 등급인 ‘절대신’ 한단계 아래인 ‘수호신’ 단계(채택 답변수 2만건 이상, 채택률 50% 이상)에 이르렀다고 네이버는 밝혔다.박태우 기자
ehot@hani.co.kr
광고
기사공유하기