تعداد نشریات | 38 |
تعداد شمارهها | 1,244 |
تعداد مقالات | 9,010 |
تعداد مشاهده مقاله | 7,871,794 |
تعداد دریافت فایل اصل مقاله | 4,721,807 |
یک روش سریع برای تقطیع گفتار گویندگان بر اساس بسامد گام گفتار (RPSS) | ||
علوم و فناوریهای پدافند نوین | ||
مقاله 4، دوره 3، شماره 1 - شماره پیاپی 7، فروردین 1391، صفحه 29-38 اصل مقاله (3.22 M) | ||
نویسندگان | ||
بهروز عبدالعلی* 1؛ حسین صامتی2؛ محمد حسین قزل ایاغ1 | ||
1دانشگاه امام حسین | ||
2دانشگاه صنعتی شریف | ||
تاریخ دریافت: 10 بهمن 1397، تاریخ بازنگری: 08 دی 1403، تاریخ پذیرش: 10 بهمن 1397 | ||
چکیده | ||
تقطیع و خوشه بندی گویندگان فرآیندی است که طی آن قطuه بندی و برچسب گذاری برای گفتار حاصل از یک جلسه که شامل چند گوینده است انجام میشود و دنباله صوتی به بخشهائی تقسیم میشود که هر بخش شامل فقط یک گوینده است و با برچسب گذاری مشخّص میشود که هر بخش مربوط به کدام گوینده است. تشخیص فعالیت گفتاری، تقطیع گفتار و خوشه-بندی گویندگان، حداقل مراحل اصلی سامانه های تقطیع و خوشه بندی گفتار بر اساس گوینده محسوب می شوند. برای مرحله ی تقطیع روش های متعددی وجود دارد که تقطیع بر مبنای BIC یکی از روش های مرسوم است. این روش به دلیل محاسبات آماری آن، نیاز به زمان محاسبات طولانی دارد. هدف اصلی این مقاله ارائه ی روش تقطیع بر اساس بسامد گام گفتار است، که هم دارای دقتی در حدّ روش های مرسوم است و هم دارای سرعت محاسبات بالا است، به طوری که در مقایسه با تقطیع بر اساس BIC به طور میانگین دارای مزیّت 4/2 برابری در سرعت و افزایش یک درصد در دقت است. | ||
کلیدواژهها | ||
تقطیع و خوشه بندی گویندگان؛ تقطیع گفتار؛ بسامد گام گفتار | ||
عنوان مقاله [English] | ||
A Method for Rapid Pitch-based Speaker Segmentation | ||
نویسندگان [English] | ||
Behrouz Abdolali1؛ Hossein Sameti2؛ Mohammad Hossein Ghezeayagh1 | ||
چکیده [English] | ||
Speaker Diarization is the process of partitioning an input audio stream into homogeneous segments according to the speaker identity. Voice Activity Detection (VAD), speaker segmentation and speaker clustering are the main necessary parts of the Speaker Diarization systems. There are several methods for speaker segmentation. However, most of the Speaker Diarization Systems use BIC-based Segmentation methods. The main goal of this paper is to propose a new method for speaker segmentation with higher speed than the current methods - e.g. BIC - and acceptable accuracy. Our proposed method is based on the pitch frequency of the speech. The accuracy of this method is similar to the accuracy of common speaker segmentation methods. However, its computation cost is much less than theirs. We show that our method is about 2.4 times faster than the BIC-based speaker segmentation method, while the accuracy of pitch-based method is %71 which is about %1 higher than that of the BIC-based method. | ||
کلیدواژهها [English] | ||
Speaker Diarization, Speaker Indexing, Voice Activity Detection, Speech Segmentation, Pitch-based Speech Segmentation | ||
آمار تعداد مشاهده مقاله: 452 تعداد دریافت فایل اصل مقاله: 141 |