دسته بندی داده های وب تاریک به کمک مدل زبانی BERT

اختریان, براتعلی; رضوانی, محسن

doi:10.47176/ECDJ.2025.1624

فهرست نشریات

فراخوان حمایت از طرحهای فناورانه: جوش اتوماتیک به کمک ربات پرتابل

زنجیره کاربردی سازی هوش مصنوعی

حسگرهای فروسرخ و روش های اقدام متقابل

مدلسازی و طراحی باتری های سدیم سولفور

تعداد نشریات	38
تعداد شماره‌ها	1,418
تعداد مقالات	10,203
تعداد مشاهده مقاله	12,179,379
تعداد دریافت فایل اصل مقاله	7,124,773

	دسته بندی داده های وب تاریک به کمک مدل زبانی BERT
پدافند الکترونیکی و سایبری
مقاله 4، دوره 13، شماره 4 - شماره پیاپی 52، دی 1404
نوع مقاله: مقاله پژوهشی
شناسه دیجیتال (DOI): 10.47176/ECDJ.2025.1624
نویسندگان
براتعلی اختریان¹؛ محسن رضوانی^* ²
¹دانشجوی کارشناسی‌ارشد، دانشکده مهندسی کامپیوتر،دانشگاه صنعتی شاهرود ، شاهرود، ایران
²استادیار،دانشکده مهندسی کامپیوتر، دانشگاه صنعتی شاهرود، شاهرود، ایران
تاریخ دریافت: 28 شهریور 1404، تاریخ بازنگری: 17 آبان 1404، تاریخ پذیرش: 07 آذر 1404
چکیده
ماهیت پنهان و دسترسی محدود وب‌تاریک، موجب گسترش فعالیت‌های مجرمانه بسیاری از جمله تهدیدات سایبری، فروش اسلحه، فروش مواد مخدر و فروش ابزارهای غیرقانونی شده است. ظهور مدل‌های زبانی بزرگ این امید را ایجاد نموده است که بتوان با دقت مناسبی به تحلیل مطالب موجود در وب تاریک پرداخت. در همین راستا استفاده از داده‌های انبوه سایبری موجود در وب‌تاریک برای جلوگیری از تهدیدات سایبری و آموزش مدل‌های زبانی بسیار مفید و مؤثر خواهد بود. تکنولوژی مدل‌های زبانی بزرگ برای آموزش بهتر و رسیدن به ‌دقت کافی، به داده زیاد و باکیفیت بالا نیاز دارند و این چالشی است که محققان حوزه امنیت سایبری با توجه ‌به آلوده بودن داده‌های موجود در وب‌تاریک روبرو هستند. اغلب تحقیقات در این زمینه، متمرکز بر روی تمام مشخصه‌های دادگان وب‌تاریک و داده‌های باکیفیت پایین صورت پذیرفته است و نتوانسته‌اند دقت بالایی را کسب کنند. در این پژوهش یک مدل ‌زبانی جدید بر پایه مدل زبانی پایه BERT که بر روی داده استخراج شده از وب‌تاریک آموزش‌دیده است، ارائه کردیم. مدل پیشنهادی یک مدل متنی مبتنی بر ترانسفورماتور است که از رمزگذار دوطرفه از ترانسفورماتورها برای رویکرد یادگیری استفاده می‌کند و آن را بر روی یک دادگان باکیفیت بالا، بدون داده تکراری، عاری از کلمات نامعلوم، تماماً به زبان انگلیسی و به طور مشخص بر روی داده‌های هک و امنیت ارزیابی نمودیم. در نهایت با تحلیل مقادیر ارزیابی‌شده مدل پیشنهادی با مدل‌های قبلی، مشخص شد که مدل پیشنهادی به علت تزریق داده‌های باکیفیت نسبت به مدل‌های قبلی، توانسته دقت بهتری در دسته‌بندی داده‌ها داشته باشد.
کلیدواژه‌ها
وب‌تاریک؛ مدل‌های‌زبانی بزرگ؛ ترانسفورماتور؛ BERT
موضوعات
فناوری های نوین دفاع الکترونیک و سایبری
عنوان مقاله [English]
Dark web text classification using BERT's Language Model
نویسندگان [English]
baratali akhtariyan¹؛ Mohsen Rezvani²
¹Master's student,Faculty of Computer Engineering, Shahrood University of Technology, Shahrood, Iran
²Assistant Professor, Faculty of Computer Engineering, Shahrood University of Technology, Shahrood, Iran
چکیده [English]
The hidden nature and limited access of the dark web has led to the proliferation of many criminal activities, including cyber threats, arms sales, drug sales, and the sale of illegal tools. The emergence of large language models has created the hope that it will be possible to analyze the content on the dark web with proper accuracy. In this regard, the use of mass cyber data available in the dark web will be very useful and effective to prevent cyber threats and train language models. The technology of large language models requires a lot of high-quality data for better training and to achieve sufficient accuracy, and this is the challenge that researchers in the field of cyber security face due to the contamination of the data available on the dark web. Most of the researches in this field have been focused on all the characteristics of the dark web dataset and low-quality data and have not been able to achieve high accuracy. In this thesis, we presented a new language model based on the BERT-based language model, which was trained on the data extracted from the dark web. The proposed model is a transformer-based text model that uses a two-way encoder of transformers for a learning approach and we evaluated it on a high - quality dataset, without repetitive data, free of unknown words, all in English and specifically on hacking and security data. Finally, by analyzing the evaluated values of the proposed model with the previous models, it was found that the proposed model was able to have better accuracy in data classification due to the injection of quality data compared to the previous models.
کلیدواژه‌ها [English]
Dark Web, Large Language Models, Transformers, BERT

مراجع

آمار تعداد مشاهده مقاله: 188

اخبار و اعلانات

آمار

دسته بندی داده های وب تاریک به کمک مدل زبانی BERT