Российские ученые разрабатывают систему распознавания стресса по голосу

17-03-2026 08:01

Ученые кафедры киберпсихологии факультета социальных наук ННГУ им. Н.И. Лобачевского (Нижний Новгород)  работают над системой машинного анализа, которая позволяет определить уровень стресса человека по его речи. Об этом сообщает пресс-служба вуза.

По словам разработчиков, такая технология может быть полезна в образовании, сфере психического здоровья и в системах взаимодействия человека с компьютером. В рабочих условиях хронический стресс часто приводит к выгоранию и снижению эффективности.

Заведующая кафедрой киберпсихологии Валерия Демарева пояснила, что автоматический анализ голоса может стать инструментом раннего выявления перегрузок. По ее словам, это поможет вовремя замечать уязвимые состояния у операторов, диспетчеров и медицинских работников, снижая риск ошибок и профессионального выгорания.

Кроме того, фиксация эмоционального состояния клиента способна помочь в выявлении мошенничества, когда человек находится в состоянии стресса и, например, просит банк провести подозрительную операцию.

Стресс отражается на речи вполне заметно. Из-за реакции вегетативной нервной системы повышается мышечный тонус и учащается дыхание. В результате голос может становиться более жестким или дрожащим, меняются ритм, тембр, высота, громкость и скорость речи.

В исследовании использовали конвейер машинного обучения на основе мел-частотных кепстральных коэффициентов (MFCC). Этот метод позволяет компактно описывать спектральные характеристики речи, хорошо работает даже на небольших выборках и устойчив к шумам после нормализации.

Такие коэффициенты считаются надежной базой для первичной классификации стресса, а их сочетание с другими спектральными признаками потенциально может повысить точность.

В эксперименте студенты записывали одну и ту же презентацию в двух условиях: перед аудиторией (стресс) и в пустой аудитории (спокойное состояние). Записи разбивали на короткие фрагменты и анализировали по ряду параметров — тембру, высоте, ритму и скорости речи.

Наилучший результат показала модель Gradient Boosting, которая правильно различала стрессовую и спокойную речь почти в 92% случаев.  Из 110 приватных сегментов корректно было классифицировано 102, из 111 публичных — 101. 

В дальнейшем специалисты планируют расширить выборку и проверить систему на разных возрастных и профессиональных группах.

Изображение: qwen.ai

Loading

Loading

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...

Loading