【◑.◐】로봇교육신문

기사검색

2025.07.03 (목)

경제뉴스

사회뉴스

문화/예술뉴스

홈 > 뉴스

2019년 04월 11일 (목) 10:02

뇌파를 음성으로 변환…BCI기술 구현

미국 대학 연구팀이 뇌의 신호를 대화 음성으로 변환하는 획기적인 시스템을 개발했다.

세계적인 과학저널 '네이처(Nature)'는 29일(현지 시각) 이같은 연구 결과를 자매지 사이언티픽 리포트(Scientific Reports)에 'Towards reconstructing intelligible speech from the human auditory cortex'이라는 논문명으로 게재했다.

컬럼비아 대학 니마 메스가라니(Nima Mesgarani) 교수 연구팀이 개발한 이 시스템은 BCI(Brain–Computer Interface)의 최종 목적지 입구에 한 발 더 진입한 것으로 평가되고 있다. 즉 시스템을 이용해 말하지 않아도 뇌의 신호를 읽고 무엇을 생각하고 말하려고 하는지를 알 수 있다는 의미다. BCI 기술은 생각만으로 뇌파를 센서로 전달해 컴퓨터나 기계를 움직이는 기술을 말한다.

뇌파에서 사람의 말을 생성할 수 있는 이 시스템은 음성 합성 장치와 인공지능을 활용해 컴퓨터가 뇌와 직접 통신할 수 있는 새로운 방법을 만든 기술이다. 특히 지금까지 전혀 사례가 없는 수준이라 평가받고 있다.

스티븐 호킹 박사도 앓던 전신 근육이 서서히 마비되는 일명 루게릭병인 근위축성측색경화증(ALS) 환자, 뇌졸중에서 회복한 사람 등 뇌의 기능은 하고 있지만 말을 잘할 수 없는 사람이 이 시스템을 이용하면 의사소통 능력을 되찾을 수 있다.

▲ 음성 재구성 방법 설명 그림 [사이언티픽 리포트(Scientific Reports)]

메스가라니 교수는 "우리의 목소리는 주위의 친구나 가족 및 전 세계 사람들과 연결하는 매우 유용한 것으로, 부상이나 질병으로 인해 목소리를 낼 수 없는 사람도 다시 대화할 수 있게 된다는 의미다"고 말했다.

지난 수십 년간의 연구에서 인간이 말을 할 때나 뭔가를 생각할 때 인간의 두뇌는 뚜렷한 활동 패턴이 나타나는 것으로 밝혀지고 있다. 또한 반대로 누군가의 말을 들을 때, 혹은 듣는 것을 상상할 때에도 뇌가 인식 가능한 신호 패턴이 나타난다. 이러한 패턴을 기록하고 그 내용을 해독하는 연구는 지금까지도 이루어져 왔다.

메스가라니 교수도 뇌의 신호에서 말하고자 하는 내용을 해독하는 연구를 해온 인물이다. 이 분야의 초기 연구는 뇌의 청각 피질에서 기록된 신호를 분석하고 대화 내용을 재구성하려는 컴퓨터 모델을 만들었다.

하지만 이 방법은 이해하기 쉬운 대화 음성을 생성하는 것이 곤란했기 때문에 메스가라니 교수 연구팀은 다른 기술에 도전했다. 그 방법은 인간의 대화를 이용해 훈련한 컴퓨터 알고리즘 신호에서 대화 내용을 분석하고 합성할 수 있는 보코더 알고리즘을 이용한 것이다.

메스가라니 교수의 설명에 따르면 아마존 에코(Echo)와 애플 시리(Siri)가 질문에 음성으로 응답하기 위해 사용하는 기술과 동일한 것이다.

메스가라니 교수 연구팀은 보코더 뇌의 활동 패턴을 가르치기 위해 그레이트넥 신경과학 연구소(Neuroscience Institute at Great Neck)에서 일하는 신경외과 의사 아쉬 디네쉬 메타(Ashesh Dinesh Mehta) 박사와 팀을 이뤄 연구하고 공동으로 논문을 썼다.

메타 박사는 그간 뇌전증 환자를 치료해온 인물로 일부 환자는 수술로 치료하고 있다. 연구팀은 이미 뇌수술을 받은 뇌전증 환자의 뇌 왼쪽 반구에 고밀도의 경막 하부 그리드 전극을 이식해 대화를 들려주면서 뇌 활동 패턴을 측정하는 조사를 실시했다. 이때 기록된 뇌 활동 패턴을 보코더에 학습시켰다.

이어 연구팀은 같은 환자에게 0에서 9 사이의 숫자를 말하는 소리를 듣고 뇌 활동의 패턴을 보코더에 입력했다. 이후 보코더는 0에서 9까지의 숫자를 세는 소리를 들을 때 발생하는 뇌 활동의 패턴에서 자신의 합성 음성을 출력하는 데 성공했다. 이 음성을 인공지능인 신경망으로 분석하고 사람이 들을 수 있는 수준으로 처리한 것이다.

다음 링크(https://zuckermaninstitute.columbia.edu/sites/default/files/m5_dnn_vocoder.mp3)를 클릭하면 시스템이 뇌의 활동 패턴을 분석해 생성한 음성을 들을 수 있다. 실제 들어보면 조금 잘 알아듣기 어려운 부분도 있지만, 영어로 0에서 9까지의 숫자를 낭독하고 있다.

실험 결과, 시스템이 뇌파에서 대화 내용을 생성할 수 있는 확률은 75%였다. 이는 메스가라니 교수의 이전 연구 결과와 비교해서 엄청난 차이가 난다. 메스가라니 교수는 "민감한 보코더와 강력한 신경망의 조합으로 놀라운 정확도로 소리를 생성할 수 있었다"고 말했다.

앞으로 연구팀은 더 복잡한 단어나 문장을 테스트할 계획이다. 또한 연구팀은 최종 목표로 환자가 자신의 생각을 직접 말로 변환하기 위한 임플란트 기술 개발을 계획 중이다.

메스가라니 교수는 "이 시스템은 게임 체인저가 될 것"이라며 "부상이든 질병이든, 말하기 능력을 잃은 사람에게 다시 주변 세계와 연결하는 새로운 기회를 제공할 것"이라고 말했다.

커뮤니티