Российские ученые разрабатывают систему распознавания стресса по голосу

Ученые кафедры киберпсихологии факультета социальных наук ННГУ им. Н.И. Лобачевского (Нижний Новгород) работают над системой машинного анализа, которая позволяет определить уровень стресса человека по его речи. Об этом сообщает пресс-служба вуза.
По словам разработчиков, такая технология может быть полезна в образовании, сфере психического здоровья и в системах взаимодействия человека с компьютером. В рабочих условиях хронический стресс часто приводит к выгоранию и снижению эффективности.
Заведующая кафедрой киберпсихологии Валерия Демарева пояснила, что автоматический анализ голоса может стать инструментом раннего выявления перегрузок. По ее словам, это поможет вовремя замечать уязвимые состояния у операторов, диспетчеров и медицинских работников, снижая риск ошибок и профессионального выгорания.
Кроме того, фиксация эмоционального состояния клиента способна помочь в выявлении мошенничества, когда человек находится в состоянии стресса и, например, просит банк провести подозрительную операцию.
Стресс отражается на речи вполне заметно. Из-за реакции вегетативной нервной системы повышается мышечный тонус и учащается дыхание. В результате голос может становиться более жестким или дрожащим, меняются ритм, тембр, высота, громкость и скорость речи.
В исследовании использовали конвейер машинного обучения на основе мел-частотных кепстральных коэффициентов (MFCC). Этот метод позволяет компактно описывать спектральные характеристики речи, хорошо работает даже на небольших выборках и устойчив к шумам после нормализации.
Такие коэффициенты считаются надежной базой для первичной классификации стресса, а их сочетание с другими спектральными признаками потенциально может повысить точность.
В эксперименте студенты записывали одну и ту же презентацию в двух условиях: перед аудиторией (стресс) и в пустой аудитории (спокойное состояние). Записи разбивали на короткие фрагменты и анализировали по ряду параметров — тембру, высоте, ритму и скорости речи.
Наилучший результат показала модель Gradient Boosting, которая правильно различала стрессовую и спокойную речь почти в 92% случаев. Из 110 приватных сегментов корректно было классифицировано 102, из 111 публичных — 101.
В дальнейшем специалисты планируют расширить выборку и проверить систему на разных возрастных и профессиональных группах.
Изображение: qwen.ai
![]()
![]()
![]()

