چکیده مقاله:
دادهکاوی که به عنوان استخراج دانش از پایگاه دادهها نیز شناخته میشود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روشهای داده کاوی به استخراج اطلاعات و دانش از اسناد میپردازد. خوشهبندی اسناد یکی از مهمترین روشهای کاوش اسناد است که دستهبندی بدون سرپرست اسناد به گروههای مختلف میباشد. سیستمهای رایج بازیابی اطلاعات و خوشهبندی اسناد بر کلمات کلیدی استوار میباشند. با توجه به اینکه کلمات کلیدی مختلف میتوانند برای توصیف یک مفهوم استفاده شوند، این سیستمها میتوانند نتایج نادرست و ناقصی را ایجاد نمایند. همچنین روابط معنایی ممکن است بین کلمات موجود باشد که شناسایی آنها نیاز به استخراج دانش دامنه مورد نظر دارد. مهمترین گامها در خوشهبندی اسناد نحوهی نمایش اسناد و معیار اندازهگیری شباهت بین آنها است. این تحقیق بر بهبود کارایی خوشهبندی اسناد تمرکز دارد. الگوریتم خوشهبندی اسناد در سه گام پیشنهاد شده است: نمایش اسناد، اندازهگیری شباهت بین اسناد، سیستم استنتاج فازی به منظور اندازهگیری شباهت نهایی بین اسناد. در نهایت پس از انجام این سه گام، با استفاده از الگوریتم خوشهبندی پایین به بالا خوشهبندی اسناد صورت میپذیرد. در گام اول، اسناد بر اساس دانش دامنه به صورت یک گراف آنتولوژی نمایش داده میشوند. این روش بر خلاف روش مبتنی بر کلمات کلیدی، بر مفاهیم دامنه استوار میباشد و یک سند را بر اساس مفاهیم موجود در آن، به صورت زیرگرافی از آنتولوژی دامنه نمایش میدهد. مفاهیم استخراج شده گرههای گراف را تشکیل میدهند. برای هر گره با توجه به فرکانس مفهوم، وزن محاسبه میگردد. روابط موجود بین مفاهیم سند، یالهای گراف و میزان این ارتباط اوزان یالها را مشخص مینماید. در گام دوم برای هر سند بر اساس نمایش گرافی استخراج شده از مرحلهی اول، مفاهیم کلی و جزئی و یالهای اصلی مشخص میگردند. شباهت بین هر جفت از اسناد در سه مقدار و بر اساس این سه عامل محاسبه میشود. در گام سوم سیستم استنتاج فازی با سه ورودی و یک خروجی طراحی شده است. ورودیها مفاهیم کلی، مفاهیم جزئی و یالهای اصلی میباشند و خروجی میزان شباهت بین دو سند است. مجموعهای از قوانین فازی برای موتور استنتاج فازی در نظر گرفته شده است که بر اساس سه شباهت ورودی مقدار شباهت نهایی را تخمین میزند. در نهایت بر اساس ماتریس شباهت اسناد، الگوریتم خوشهبندی سلسله مراتبی پایین به بالا به منظور خوشهبندی اسناد اعمال میگردد. برای ارزیابی الگوریتم پیشنهادی، نتایج با نتایج حاصل از روشهای naïve Bayes ، دو الگوریتم مبتنی بر هستان شناسی و یک الگوریتم آماری مقایسه شده است. نتایج به دست آمده نشان میدهند که روش پیشنهاد شده مقادیر F-measure و Accuracy را بهبود میدهد. همچنین مقادیر FP و Error به میزان قابل توجهی کاهش مییابد.
منبع :نشریه فناوری اطلاعات و ارتباطات ایران