
تعداد نشریات | 35 |
تعداد شمارهها | 1,285 |
تعداد مقالات | 9,288 |
تعداد مشاهده مقاله | 8,610,985 |
تعداد دریافت فایل اصل مقاله | 5,278,204 |
ارائه مدلی ترکیبی مبتنی بر CNN – LSTM جهت تشخیص هیجان از سیگنال گفتار | ||
پدافند الکترونیکی و سایبری | ||
مقاله 3، دوره 12، شماره 4 - شماره پیاپی 48، بهمن 1403 | ||
نوع مقاله: مقاله پژوهشی | ||
نویسندگان | ||
رضا احمدیان1؛ حسین رعیتپرور1؛ ابوالفضل سرکرده ئی* 2 | ||
1کارشناسی ارشد،دانشگاه جامع امام حسین (ع)، تهران،ایران | ||
2دانشجوی دکتری،دانشگاه جامع امام حسین (ع)، تهران،ایران | ||
تاریخ دریافت: 23 خرداد 1403، تاریخ بازنگری: 07 دی 1403، تاریخ پذیرش: 23 دی 1403 | ||
چکیده | ||
داده های منتشرشده در فضای مجازی شامل متن، تصویر، ویدئو و صوت به منبعی معتبر برای سنجش افکار، عقاید و هیجانات مخاطب نسبت به اشیا مختلف مانند دولتها، سیاستها، شخصیتها، محصولات و غیره تبدیلشدهاند، ب همنظور مقابله با تهدیدات شناختی فضای سایبری، تشخیص شاکله شناختی مخاطبان خودی و غیرخودی بسیار حائز اهمیت است. پژوهش حاضر بهمنظور ارائهی مدلی محاسباتی برای تشخیص هیجان گفتار مخاطب مبتنی بر ترکیب دوطبقه بند CNN – LSTM صورت گرفته است. در این مقاله در ابتدا مقدمهای در مورد تشخیص هیجان گفتار و کاربردهای آن گفتهشده، سپس طرحهای ارائهشده در مجلات معتبر مرور و دقت آنها ارزیابیشده است، در ادامه روشی کاربردی جهت تشخیص هشت هیجان پایه مخاطب شامل شادی، غم، ترس، آرام، خشم، نفرت، شگفتزده و خنثی ارائهشده است. در این پژوهش بهمنظور داشتن تعداد داده بالا، با ترکیب دو مجموعه داده RAVDESS و TESS یک مجموعه داده کلی جمعآوریشده، در مرحله استخراج ویژگی سه ویژگی MFCC، MEL و ZCR استخراج و ترکیبشده و سپس در مدل طراحیشده از ترکیب طبقهبندی کنندههای CNN و LSTM جهت آموزش و تست استفادهشده است. با ارزیابیهای انجامشده، دقت مدل بر رویدادههای تست، 92.57 درصد است، که نسبت به مدل های موجود دارای دقت بالاتری می باشد. | ||
کلیدواژهها | ||
تشخیص هیجان گفتار؛ مخاطب سنجی؛ شبکه عصبی کانولوشن؛ شبکه عصبی بازگشتی؛ ضرایب کپسترال فرکانس مل | ||
موضوعات | ||
آسیب پذیری ها و تهدیدات فضای سایبری | ||
عنوان مقاله [English] | ||
A hybrid model based on CNN-LSTM for speech emotion reognition | ||
نویسندگان [English] | ||
reza ahmadian1؛ Hossein Rayat Parvar1؛ abolfazl sarkardehee2 | ||
1Master's degree, Imam Hussein (AS) University, Tehran, Iran | ||
2PhD Student, Imam Hussein (AS) University, Tehran, Iran | ||
چکیده [English] | ||
The data published in the virtual space, including text, image, video and speech, have become a reliable source for measuring the thoughts, opinions and emotions of the audience towards various objects such as governments, policies, personalities, products, etc. In order to conflict with the cognitive threats of the cyberspace, it is very important to recognition the cognitive structure of insider and enemy audiences. The current research was conducted in order to present a computational model for speech emotion recognition based on the combination of two Classifier of CNN-LSTM. In this article, at the beginning, the introductions about speech emotion recognition and its applications are mentioned, then the papers presented in the authoritative journals are reviewed and their accuracy is evaluated, in the following, a practical method for recognition the eight basic emotions of the audience including happiness, sadness, fear, calm, anger, Disgust, surprise, and neutral are presented. In this research, in order to have a high number of data, by combining the two data sets RAVDESS and TESS, a general data set was collected, in the feature extraction phase, three features MFCC, MEL and ZCR were extracted and combined, and then in the model designed by the combination of CNN and LSTM classifiers for Training and testing have been used. With the evaluations, the accuracy of the model on the test data is 92.57%, which is more accurate than the existing models. | ||
کلیدواژهها [English] | ||
speech emotion recognition, audience evaluation, convolutional neural network, recurrent neural network, mel frequency capstral coefficients | ||
مراجع | ||
| ||
آمار تعداد مشاهده مقاله: 46 |