Мозг по-разному реагирует на голос реального человека и дипфейк
Ученые Цюрихского университета проверили с помощью фМРТ, как мозг человека реагирует на синтезированный голос по сравнению с реальным, и показали, что две области мозга способны отличить дипфейк.
Нейросети уже довольно давно создают портреты несуществующих людей. При этом человек не может уверенно отличить, что перед ним – фотография реального человека или изображение синтезированное нейросетью. Реакции мозга в обоих случаях идентичны.
Синтез голоса по прототипу, – это одна из первых возможностей, которая была реализована нейросетью. Но до сих пор, несмотря на огромный прогресс, во всех ИИ-моделях, где нужно голосовое общение, используются голоса-прототипы, принадлежащие реальным людям. Все "поющие" и "говорящие" модели используют реальные голоса. На сегодня не существует ИИ-моделей, которые настолько точно синтезируют "несуществующий" голос, что человек принимает его за реальный. ИИ может как угодно модифицировать реальный голос, но что-то главное создать не удается.
Это эмпирическое наблюдение стало предметом исследования ученых Цюрихского университета. Он решили проверить, как наш мозг реагирует на синтезированный и реальный голоса.
Результаты работы опубликованы в журнале Communications Biology.
25 добровольцам было предложено распознать является ли голос синтезированным или реальным. Они справились с задачей практически безошибочно. При этом проводилось фМРТ-сканирование мозга. Как показали измерения, при восприятии разных типов голоса активность мозга отличается.
Во-первых, иначе реагирует слуховая кора. Это означает, что существующие на сегодня методы синтеза и воспроизведения искусственного голоса не дают точной картины. В чем состоят эти отличия ученые пока сказать не могут, но слуховая кора надежно отличает синтезированный голос
Другая область мозга, которая демонстрирует различия при восприятии разных типов голоса, – это прилежащее ядро (NAcc). Эта область участвует в формировании вознаграждения и важна при обучении с подкреплением. Ученые считают, что дипфейковые голоса не вызывают чувства узнавания (и соответственно вознаграждения), которое дают естественные голоса.
Ученые пришли к выводу, что сегодня синтез реального голоса практически невозможен: мозг распознает подделку.