Интерфейс «компьютер-человек» сегодня уже имеет возможности распознавать мысли человека и превращать их в связную речь. Это эпохальное событие открывает новые возможности в области управления самыми разными процессами.
Основным элементом проведенных экспериментов стал новый алгоритм искусственного интеллекта, который сравнивает поступающие речевые сигналы с электрохимической активностью головного мозга, а затем преобразует полученную информацию в речь, которая имеет смысл для слушающего.
Ученым уже сравнительно давно известно, что при речевой активности (и даже в тех случаях, когда мы думаем, что говорим, или видим сны, в которых что-то произносим), в мозгу активируются речевые центры. В данном случае компьютерная система научилась декодировать сигналы мозга, а не реальные мысли, но при этом отмечается, что в будущем она сможет делать и это.
«Речь дает нам средство связи с друзьями, близкими и окружающим миром — вот почему утрата способности говорить из-за травмы или болезни является таким несчастьем, — говорит Нима Месгарани, член группы исследователей Колумбийского университета в Нью-Йорке. - Опираясь на новые данные, мы получили потенциальное средство восстановления способности говорить. Мы показали, что при помощи компьютерной системы можно трансформировать сигналы мозга в речь, понятную людям».
Использованный алгоритм называется вокодером. Это тот же тип алгоритма, который используется для синтезирования речи после её анализа.
Версии этого алгоритма уже сейчас широко используются в таких системах распознавания речи, как Siri и Amazon Alexa, но в данном случае вокодер анализировал не реальную человеческую речь, а активность нейронов в слуховых центрах человеческого мозга, измеряемую у пациентов, которые перенесли операции на мозге. Они слушали отдельные фразы, которые им зачитывались, а датчики активности головного мозга записывали ответные сигналы.
Для начала пациентам зачитывали цифры от 0 до 9. Считанные в их мозге сигналы затем были воспроизведены алгоритмом вокодера и обработаны системой искусственного интеллекта. Оказалось, что сгенерированные на основании этого анализа звуки речи весьма близки к оригиналу.
«Мы поняли, что люди могут понимать и воспроизводить такие звуки примерно в 75% случаев, что намного превышает результаты предшествующих экспериментов, — рассказывает Месгарани. — Чувствительный декодер и мощные нейронные вычислительные сети воспроизводили звуки, которые первоначально слышали пациенты, с удивительной точностью».
В недалеком будущем должны появиться системы, которые позволят людям, по разным причинам утратившим возможность говорить, генерировать понятную речь.
Например, люди, перенесшие тяжелые формы инсульта или больные амиотропическим склерозом, как покойный Стивен Хокинг, часто вынуждены пользоваться синтезаторами речи, которые действуют по иному принципу и не обладают такими возможностями.
Источник: https://www.nature.com