1گروه مدیریت فناوری اطلاعات، واحد تهران مرکزی، دانشگاه آزاد اسلامی
2گروه مدیریت صنعتی، واحد تهران مرکزی، دانشگاه آزاد اسلامی، تهران، ایران.(نویسنده مسئول)
3گروه مدیریت، پژوهشگاه علوم انتظامی و مطالعات اجتماعی، تهران، ایران.
تاریخ دریافت: 15 بهمن 1401،
تاریخ بازنگری: 31 فروردین 1402،
تاریخ پذیرش: 21 اردیبهشت 1402
چکیده
عصری که ما در آن زندگی میکنیم، عصر اطلاعات است و برای سازمان ها مهمترین مسئله، اشراف بر همین اطلاعات است. با رشد روزافزون اخبار در دنیای دیجیتال و اینترنت، موضوعی که مهم و حائز اهمیت میشود، دستهبندی این اطلاعات و دسترسی سریع و ارزان ما به آنها میباشد. این مهم به دست نمیآید مگر با انجام روشهایی که از آن بهعنوان دستهبندی متون یاد شده است. هدف این پژوهش دستهبندی متون خبری در دستههای از قبل مشخصشده می باشد که با استفاده از ابزار مدل اتوماتیک که یکی از زیرمجموعههای متنکاوی محسوب میشود صورت می پذیرد. با توجه به اهمیت موضوع و کاری که در این زمینه برای زبانهای دیگر دنیا انجام گرفته است، نیاز به طبقهبندی متون فارسی به خوبی احساس میشود. این نکته قابل توجه می باشد که تحقیقات برای متون انگلیسی توسعه داده شده و به کارگرفته می شود اما از آنجاییکه زبان فارسی پیچیدگی های ساختاری نسبت به سایر زبان ها دارد و همچنین تحقیقات کمتری در این زمینه انجام گرفته است، این پژوهش از نوع کاربردی، توسعه ای می باشد که برای انجام آن می توان به روش پژوهش آزمایشی و استفاده از ابزار متن کاوی اشاره کرد، به این صورت که در یک محیط کاملاً تحت کنترل و با توانایی ثابت نگه داشتن سایر متغیرها انجام می گردد. در جامعه اطلاعاتی دستهبندی متون بهوسیله افراد نخبه و بهصورت دستی انجام میگیرد. دستهبندی متون آنهم با این حجم و بهصورت دستی غیرممکن به نظر میرسد، بنابراین ما ناگزیریم که به دنبال روشهایی برای دستهبندی خودکار متون باشیم. از سوی دیگر ذخیرهسازی، پردازش و تحلیل این حجم از اطلاعات تبدیل به چالشی جدی شده است. با توجه به حجم بالای اخبار، داده ها، اطلاعات، اسناد و پیچیدگی حفظ و نگهداری آنها، لازم است سیستمی جهت مدیریت دریافت، حفظ و نگهداری اخبار موجود، بکار گرفته شود. پیچیدگی سازمان ها نیاز به متمرکز بودن اخبار، اسناد، طبقه بندی درست، گردش صحیح اخبار و سهولت در دسترسی به آنها را ایجاد می نماید. مدیریت مستندات این امکان را برای سازمان های اطلاعاتی فراهم می آورد که اخبار و اسناد دریافتی یا موجود را به درستی طبقه بندی نموده، آنها را حفظ، نگهداری و بازیابی نماید. با بررسی، تحلیل و پردازش در این پژوهش به این نتیجه می رسیم که دقت و نتایج حاصل روش پیشنهادی روی متون خبری برخط نشان میدهد؛ مدل ماشین بردار پشتیبان دارای دقت 29/93، صحت 32/93، فراخوانی 96/92 و خطای 71/6 است.
باقری، ایوب؛ فرزانه فر، حامد؛ سرایی، محمدحسین و احمدزاده، محمدرضا (1387). دستهبندی متون خبری فارسی با استفاده از الگوریتم بیز ساده، دومین کنفرانس دادهکاوی ایران، تهران،https://civilica.com/doc/70524
برفامی، مهدی و فاطری، سهیل (1392). استفاده از ترکیب شبکههای عصبی جهت دستهبندی متون فارسی مبتنی بر الگوریتمهای GA، کی-نزدیکترین همسایه، PCA جهت کاهش ویژگی، اولین همایش ملی رویکردهای نوین در مهندسی کامپیوتر و بازیابی اطلاعات، رشت، https://civilica.com/doc/225887
بصیری، محمد احسان؛ نعمتی، شهلا و قاسم آقایی، ناصر (1386). مقایسه دستهبندی متون فارسی با استفاده از الگوریتمهای کی-نزدیکترین همسایه و fkNN و انتخاب ویژگیها بر اساس بهره اطلاعات و فرکانس سند، سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران، جزیره کیش، https://civilica.com/doc/41786
بینا، بهاره؛ رهگذر، مسعود و ده موبد، آذین (١٣٨٦). طبقهبندی خودکار متون فارسی سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران، جزیره کیش، انجمن کامپیوتر، دانشگاه صنعتی شریف.
حسنپور، حمید؛ قنبری سرخی، علی و پارسی، اشکان (1391). استخراج بهترین ویژگی از متون فارسی با استفاده از تجزیهوتحلیل مؤلفههای اصلی با کمک میانگین یادآوری و الگوریتم ژنتیک، نخستین کنفرانس بینالمللی پردازش خط و زبان فارسی.
حسنپور، حمید و مدنی، صبا سادات (1393). بهبود دقت سیستم دستهبندی خودکار اسناد فارسی به کمک هستانشناسی فارسنت، مجلهی علمی پژوهشی، رایانش نرم و فناوری اطلاعات، جلد 3، شماره 1
زمانی، محسن؛ دیانت، روحالله و صادق زاده، مهدی (1392). دستهبندی متون فارسی با استفاده از روش آنالیز معنایی پنهان احتمالاتی، همایش ملی کاربرد سیستمهای هوشمند (محاسبات نرم) در علوم و صنایع، قوچان،https://civilica.com/doc/206251
طاهری نیا، محسن (1391). دستهبندی متون فارسی با استفاده از یادگیری نیمه نظارتشده، چهارمین کنفرانس مهندسی برق و الکترونیک ایران، گناباد،https://civilica.com/doc/164226
عابدینی نیا، مائده؛ الله دادی، لاله و شیخی، فاطمه (1392). کاوش متون فارسی در وب با استفاده از تحلیل معنایی و روش طبقهبندی چندلایهای اطلاعات، اولین همایش ملی رویکردهای نوین در مهندسی کامپیوتر و بازیابی اطلاعات، رشت،https://civilica.com/doc/225377
عربی نرئی، سمیه؛ وحیدی اصل، مجتبی و مینایی بیدگلی، بهروز (1386). استخراج کلمات کلیدی جهت طبقهبندی متون فارسی، اولین کنفرانس دادهکاوی ایران، تهران، https://civilica.com/doc/33094
قنبری سرخی، علی و ابراهیمی، فاطمه (1390). بهبود عملکرد طبقهبندی متون فارسی با استفاده از تجزیهوتحلیل مؤلفههای اصلی با کمک معیار میانگین یادآوری و دقت، چهاردهمین کنفرانس دانشجویی مهندسی برق کشور، کرمانشاه،https://civilica.com/doc/121558
مقصودی، نوشین و همایونپور، محمدمهدی (1388). ارائه روشی جدید در طبقهبندی متون فارسی با استفاده از دانش معنایی "، پانزدهمین کنفرانس بینالمللی سالانه انجمن کامپیوتر ایران.
آقا کاردان، احمد و کیهانی نژاد، مینا (١٣٩١). ارائه مدلی برای استخراج اطلاعات از مستندات متنی، مبتنی بر متنکاوی در حوزه یادگیری الکترونیکی. فصلنامه علمی-پژوهشی فناوری اطلاعات و ارتباطات ایران، سال چهارم، شمارههای ١١ و ١٢، ص ٤٧ تا ٥٤
بازقندی، مهدی؛ تدین تبریزی، قمرناز و وفایی جهان، مجید (١٣٩١). نخستین کنفرانس بینالمللی پردازش خط و زبان طبیعی، دانشگاه سمنان.
بهرام پور، اکبر؛ بهشتی، همایون و لاکتراشی، طیبه (1394). بررسی روشها و الگوریتمهای دستهبندی اخبار با استفاده از پردازش زبان طبیعی (NLP)، دومین کنفرانس ملی توسعه علوم مهندسی، تنکابن، موسسه آموزش عالی آیندگان.
پرئی، اعظمالسادات و حمیدی، حجت اله (١٣٩٥). ارائه رویکردی برای مدیریت و سازماندهی اسناد متنی با استفاده از تجزیه تحلیل هوشمند متن. فصلنامه علمی- پژوهشی پژوهشگاه علوم و فناوری اطلاعات ایران، دوره ٣٢، شماره٤، ص١١٧١ تا ١٢٠٢
جمالی، ایمان؛ میرعابدینی، سید جواد و هارونآبادی، علی (١٣٩٦). ارائهی یک مدل جهت دستهبندی متون فارسی با استفاده از ترکیب روشهای دستهبندی، مجله مهندسی مخابرات، سال هفتم، شماره ٢٣
سیاحی، عارف؛ هاشمی، سید محسن و مزرعه، سعید (١٣٩٤). بهبود یک روش مبتنی بر انتخاب ویژگی بهمنظور دستهبندی متون با الگوریتمهای متنکاوی، دومین کنگره سراسری فناوریهای نوین ایران با هدف دستیابی به توسعه پایدار، تهران، مرکز راهکارهای دستیابی به توسعه پایدار، موسسه آموزش عالی مهر اروند.
شیخی، مریم؛ اکبرپور، شاهین و فرزان، علی (١٣٩١). متنکاوی متون فارسی در راستای طبقهبندی آن. چهارمین کنفرانس مهندسی برق و الکترونیکی ایران.
کریمی منش، مصطفی و شیرازی، حسین (١٣٩٢). مقایسه روشهای وزندهی ویژگی در فرایند طبقهبندی مستندات. اولین کنفرانس ملی رویکردهای نوین در مهندسی کامپیوتر و بازیابی اطلاعات ایران
هاشمی، سید محسن (١٣٩٤). بهبود دستهبندی متون فارسی با ترکی روش دو مرحلهای انتخاب ویژگی و الگوریتمهای یادگیری ماشین، کنفرانس بینالمللی یافتههای نوین پژوهشی در مهندسی برق و علوم کامپیوتر، تهران، موسسه آموزش عالی نیکان.
BolshaKov, I. A. & GelbuKh, A. (2004). Computational linguistics: models, resources, applications: Instituto Politecnico Nacional.
Eyheramendy, S. GenKin, A. Ju,W.H. Lewis, D. D. & Madigan, D. (2003). Sparse bayesian classifiers for text categorization. Journal of Intelligence Community Research and Development, 13.
Francis, L. A. (2006). Taming Text: An Introduction to Text Mining. Paper presented at the Casualty Actuarial Society Forum
McCallum, A. & Nigam, K. (1998). A comparison of event models for naive bayes text classification. Paper presented at the AAAI-98 worKshop on learning for text
categorization.
Moulinier, I. & Ganascia, J. G. (1995). Applying an existing machine learning algorithm to text categorization. Paper presented at the International Joint Conference on Artificial Intelligence.
P. MulaK, &N. Talhar (2015). Analysis of distance measures using K-nearest neighbor algorithm on KDD dataset. International Journal of Science and Research,
4(7), 2101-2104.
NadKarni, P. M. Ohno-Machado, L. & Chapman, W. W. (2011). Natural language processing: an introduction. Journal of the American Medical Informatics Association, 18(5), 544-551.