یک روش سریع برای تقطیع گفتار گویندگان بر اساس بسامد گام گفتار (RPSS)

عبدالعلی, بهروز; صامتی, حسین; قزل ایاغ, محمد حسین

فراخوان حمایت از طرحهای فناورانه: جوش اتوماتیک به کمک ربات پرتابل

تعداد نشریات	34
تعداد شماره‌ها	1,330
تعداد مقالات	9,556
تعداد مشاهده مقاله	9,734,837
تعداد دریافت فایل اصل مقاله	5,945,374

	یک روش سریع برای تقطیع گفتار گویندگان بر اساس بسامد گام گفتار (RPSS)
علوم و فناوریهای پدافند نوین
مقاله 4، دوره 3، شماره 1 - شماره پیاپی 7، فروردین 1391، صفحه 29-38 اصل مقاله (3.22 M)
نویسندگان
بهروز عبدالعلی^* ¹؛ حسین صامتی²؛ محمد حسین قزل ایاغ¹
¹دانشگاه امام حسین
²دانشگاه صنعتی شریف
تاریخ دریافت: 10 بهمن 1397، تاریخ بازنگری: 27 شهریور 1404، تاریخ پذیرش: 10 بهمن 1397
چکیده
تقطیع و خوشه بندی گویندگان فرآیندی است که طی آن قطuه بندی و برچسب گذاری برای گفتار حاصل از یک جلسه که شامل چند گوینده است انجام می‌شود و دنباله صوتی به بخش‌هائی تقسیم می‌شود که هر بخش شامل فقط یک گوینده است و با برچسب گذاری مشخّص می‌شود که هر بخش مربوط به کدام گوینده است. تشخیص فعالیت گفتاری، تقطیع گفتار و خوشه-بندی گویندگان، حداقل مراحل اصلی سامانه های تقطیع و خوشه بندی گفتار بر اساس گوینده محسوب می شوند. برای مرحله ی تقطیع روش های متعددی وجود دارد که تقطیع بر مبنای BIC یکی از روش های مرسوم است. این روش به دلیل محاسبات آماری آن، نیاز به زمان محاسبات طولانی دارد. هدف اصلی این مقاله ارائه ی روش تقطیع بر اساس بسامد گام گفتار است، که هم دارای دقتی در حدّ روش های مرسوم است و هم دارای سرعت محاسبات بالا است، به طوری که در مقایسه با تقطیع بر اساس BIC به طور میانگین دارای مزیّت 4/2 برابری در سرعت و افزایش یک درصد در دقت است.
کلیدواژه‌ها
تقطیع و خوشه بندی گویندگان؛ تقطیع گفتار؛ بسامد گام گفتار
عنوان مقاله [English]
A Method for Rapid Pitch-based Speaker Segmentation
نویسندگان [English]
Behrouz Abdolali¹؛ Hossein Sameti²؛ Mohammad Hossein Ghezeayagh¹


چکیده [English]
Speaker Diarization is the process of partitioning an input audio stream into homogeneous segments according to the speaker identity. Voice Activity Detection (VAD), speaker segmentation and speaker clustering are the main necessary parts of the Speaker Diarization systems. There are several methods for speaker segmentation. However, most of the Speaker Diarization Systems use BIC-based Segmentation methods. The main goal of this paper is to propose a new method for speaker segmentation with higher speed than the current methods - e.g. BIC - and acceptable accuracy. Our proposed method is based on the pitch frequency of the speech. The accuracy of this method is similar to the accuracy of common speaker segmentation methods. However, its computation cost is much less than theirs. We show that our method is about 2.4 times faster than the BIC-based speaker segmentation method, while the accuracy of pitch-based method is %71 which is about %1 higher than that of the BIC-based method.
کلیدواژه‌ها [English]
Speaker Diarization, Speaker Indexing, Voice Activity Detection, Speech Segmentation, Pitch-based Speech Segmentation

آمار تعداد مشاهده مقاله: 512 تعداد دریافت فایل اصل مقاله: 190

اخبار و اعلانات

آمار

یک روش سریع برای تقطیع گفتار گویندگان بر اساس بسامد گام گفتار (RPSS)