Search
۱۴۰۳-۰۹-۰۲
  • :
  • :

خوشه‌بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

خوشه‌بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

چکیده مقاله:
داده‌کاوی که به عنوان استخراج دانش از پایگاه داده‌ها نیز شناخته می‌شود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روش‌های داده کاوی به استخراج اطلاعات و دانش از اسناد می‌پردازد. خوشه‌بندی اسناد یکی از مهمترین روش‌های کاوش اسناد است که دسته‌بندی بدون سرپرست اسناد به گروه‌های مختلف می‌باشد. سیستم‌های رایج بازیابی اطلاعات و خوشه‌بندی اسناد بر کلمات کلیدی استوار می‌باشند. با توجه به اینکه کلمات کلیدی مختلف می‌توانند برای توصیف یک مفهوم استفاده شوند، این سیستم‌ها می‌توانند نتایج نادرست و ناقصی را ایجاد نمایند. همچنین روابط معنایی ممکن است بین کلمات موجود باشد که شناسایی آنها نیاز به استخراج دانش دامنه مورد نظر دارد. مهمترین گام‌ها در خوشه‌بندی اسناد نحوه‌ی نمایش اسناد و معیار اندازه‌گیری شباهت بین آنها است. این تحقیق بر بهبود کارایی خوشه‌بندی اسناد تمرکز دارد. الگوریتم خوشه‌بندی اسناد در سه گام پیشنهاد شده است: نمایش اسناد، اندازه‌گیری شباهت بین اسناد، سیستم استنتاج فازی به منظور اندازه‌گیری شباهت نهایی بین اسناد. در نهایت پس از انجام این سه گام، با استفاده از الگوریتم خوشه‌بندی پایین به بالا خوشه‌بندی اسناد صورت می‌پذیرد. در گام اول، اسناد بر اساس دانش دامنه به صورت یک گراف آنتولوژی نمایش داده می‌شوند. این روش بر خلاف روش مبتنی بر کلمات کلیدی، بر مفاهیم دامنه استوار می‌باشد و یک سند را بر اساس مفاهیم موجود در آن، به صورت زیرگرافی از آنتولوژی دامنه نمایش می‌دهد. مفاهیم استخراج شده گره‌های گراف را تشکیل می‌دهند. برای هر گره با توجه به فرکانس مفهوم، وزن محاسبه می‌گردد. روابط موجود بین مفاهیم سند، یال‌های گراف و میزان این ارتباط اوزان یال‌ها را مشخص می‌نماید. در گام دوم برای هر سند بر اساس نمایش گرافی استخراج شده از مرحله‌ی اول، مفاهیم کلی و جزئی و یال‌های اصلی مشخص می‌گردند. شباهت بین هر جفت از اسناد در سه مقدار و بر اساس این سه عامل محاسبه می‌شود. در گام سوم سیستم استنتاج فازی با سه ورودی و یک خروجی طراحی شده است. ورودی‌ها مفاهیم کلی، مفاهیم جزئی و یال‌های اصلی می‌باشند و خروجی میزان شباهت بین دو سند است. مجموعه‌ای از قوانین فازی برای موتور استنتاج فازی در نظر گرفته شده است که بر اساس سه شباهت ورودی مقدار شباهت نهایی را تخمین می‌زند. در نهایت بر اساس ماتریس شباهت اسناد، الگوریتم خوشه‌بندی سلسله مراتبی پایین به بالا به منظور خوشه‌بندی اسناد اعمال می‌گردد. برای ارزیابی الگوریتم پیشنهادی، نتایج با نتایج حاصل از روش‌های naïve Bayes ، دو الگوریتم مبتنی بر هستان شناسی و یک الگوریتم آماری مقایسه شده است. نتایج به دست آمده نشان می‌دهند که روش پیشنهاد شده مقادیر F-measure و Accuracy را بهبود می‌دهد. همچنین مقادیر FP و Error به میزان قابل توجهی کاهش می‌یابد.
منبع :نشریه فناوری اطلاعات و ارتباطات ایران

لینک دریافت کامل مقاله

 




پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *