Распознавание эмоций по речи

Шапович, Е. Г.; Шах, А. В.

Распознавание эмоций по речи

dc.contributor.author	Шапович, Е. Г.
dc.contributor.author	Шах, А. В.
dc.coverage.spatial	Барановичи	en_US
dc.date.accessioned	2022-01-12T11:57:41Z
dc.date.available	2022-01-12T11:57:41Z
dc.date.issued	2021
dc.description	Беларусь и Китай: многовекторность сотрудничества : сб. статей по результатам IV Науч.-практ. круглого стола, Барановичи, 30 марта 2021 г. / М-во образования Респ. Беларусь, Баранович. гос. ун-т ; редкол.: В. В. Климук (гл. ред.), [и др.]. – Барановичи : БарГУ, 2021. – 212 с.	en_US
dc.description.abstract	В этой работе проводится обширное сравнение различных подходов к системам распознавания речи по эмоциям. Анализы проводились на аудиозаписи из аудиовизуальной базы данных эмоциональной речи и песен Райерсона. После предварительной обработки необработанных аудиофайлов считались такие функции как Log-Mel, спектрограмма, кепстральные коэффициенты Mel-частоты (MFCC), высота тона и энергия. Значение этих характеристик для классификации эмоций сравнивается с применением таких методов, как Long Short Term Memory (LSTM), сверточные нейронные сети (CNN), скрытые марковские модели (HMM). Нейронные сети (DNN). По 14-классной классификации (2 пола × 7 эмоций) задача, точность 68 % была достигнута с 4-слойной 2-мерной CNN с использованием спектрограммы Log-Mel. Мы также наблюдаем, что при распознавании эмоций выбор звуковых характеристик влияет на результаты гораздо больше, чем сложность модели. In this paper, we conduct an extensive comparison of different approaches to speech recognition systems based on emotions. The analyses were performed on audio recordings from the Ryerson emotional speech and songs audio-visual database. After preprocessing the raw audio files, such features as Log-Mail, spectrogram, Mel- Frequency cepstral coefficients (MFCC), pitch, and energy were counted. The significance of these characteristics for emotion classification is compared using methods such as Long Short Term Memory (LSTM), convolutional neural networks (CNN), and hidden Markov models (HMM). Neural networks (DNNs). According to the 14-class classification (2 genders × 7 emotions) task, 68 % accuracy was achieved with a 4-layer 2-dimensional CNN using a Log-Mel spectrogram. We also observe that in emotion recognition, the choice of sound characteristics affects the results much more than the complexity of the model.	en_US
dc.identifier.citation	Шапович, Е. Г. Распознавание эмоций по речи / Е. Г. Шапович, А. В. Шах // Беларусь и Китай: многовекторность сотрудничества : сб. статей по результатам IV Науч.-практ. круглого стола, Барановичи, 30 марта 2021 г. / М-во образования Респ. Беларусь, Баранович. гос. ун-т ; редкол.: В. В. Климук (гл. ред.), [и др.]. – Барановичи : БарГУ, 2021. – С. 194–204.	en_US
dc.identifier.uri	https://rep.barsu.by/handle/data/6679
dc.language.iso	ru	en_US
dc.publisher	БарГУ	en_US
dc.subject	искусственный интеллект	en_US
dc.subject	нейронные сети	en_US
dc.subject	распознавание эмоций	en_US
dc.title	Распознавание эмоций по речи	en_US
dc.type	Article	en_US

Файлы

Контейнер файлов

Сейчас показывают 1 - 1 из 1

Название:: Raspoznavanie jemocij po rechi.pdf
Розмер:: 345.68 KB
Формат:: Adobe Portable Document Format
Описание:: основной текст

Загрузить

Комплект лицензий

Сейчас показывают 1 - 1 из 1

Название:: license.txt
Розмер:: 1.71 KB
Формат:: Item-specific license agreed upon to submission
Описание:

Загрузить

Коллекции

2021 год, материалы IV научно-практического круглого стола