آخرین خبرها

خوشه‌بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

چکیده مقاله:
داده‌کاوی که به عنوان استخراج دانش از پایگاه داده‌ها نیز شناخته می‌شود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روش‌های داده کاوی به استخراج اطلاعات و دانش از اسناد می‌پردازد. خوشه‌بندی اسناد یکی از مهمترین روش‌های کاوش اسناد است که دسته‌بندی بدون سرپرست اسناد به گروه‌های مختلف می‌باشد. سیستم‌های رایج بازیابی اطلاعات و خوشه‌بندی اسناد بر کلمات کلیدی استوار می‌باشند. با توجه به اینکه کلمات کلیدی مختلف می‌توانند برای توصیف یک مفهوم استفاده شوند، این سیستم‌ها می‌توانند نتایج نادرست و ناقصی را ایجاد نمایند. همچنین روابط معنایی ممکن است بین کلمات موجود باشد که شناسایی آنها نیاز به استخراج دانش دامنه مورد نظر دارد. مهمترین گام‌ها در خوشه‌بندی اسناد نحوه‌ی نمایش اسناد و معیار اندازه‌گیری شباهت بین آنها است. این تحقیق بر بهبود کارایی خوشه‌بندی اسناد تمرکز دارد. الگوریتم خوشه‌بندی اسناد در سه گام پیشنهاد شده است: نمایش اسناد، اندازه‌گیری شباهت بین اسناد، سیستم استنتاج فازی به منظور اندازه‌گیری شباهت نهایی بین اسناد. در نهایت پس از انجام این سه گام، با استفاده از الگوریتم خوشه‌بندی پایین به بالا خوشه‌بندی اسناد صورت می‌پذیرد. در گام اول، اسناد بر اساس دانش دامنه به صورت یک گراف آنتولوژی نمایش داده می‌شوند. این روش بر خلاف روش مبتنی بر کلمات کلیدی، بر مفاهیم دامنه استوار می‌باشد و یک سند را بر اساس مفاهیم موجود در آن، به صورت زیرگرافی از آنتولوژی دامنه نمایش می‌دهد. مفاهیم استخراج شده گره‌های گراف را تشکیل می‌دهند. برای هر گره با توجه به فرکانس مفهوم، وزن محاسبه می‌گردد. روابط موجود بین مفاهیم سند، یال‌های گراف و میزان این ارتباط اوزان یال‌ها را مشخص می‌نماید. در گام دوم برای هر سند بر اساس نمایش گرافی استخراج شده از مرحله‌ی اول، مفاهیم کلی و جزئی و یال‌های اصلی مشخص می‌گردند. شباهت بین هر جفت از اسناد در سه مقدار و بر اساس این سه عامل محاسبه می‌شود. در گام سوم سیستم استنتاج فازی با سه ورودی و یک خروجی طراحی شده است. ورودی‌ها مفاهیم کلی، مفاهیم جزئی و یال‌های اصلی می‌باشند و خروجی میزان شباهت بین دو سند است. مجموعه‌ای از قوانین فازی برای موتور استنتاج فازی در نظر گرفته شده است که بر اساس سه شباهت ورودی مقدار شباهت نهایی را تخمین می‌زند. در نهایت بر اساس ماتریس شباهت اسناد، الگوریتم خوشه‌بندی سلسله مراتبی پایین به بالا به منظور خوشه‌بندی اسناد اعمال می‌گردد. برای ارزیابی الگوریتم پیشنهادی، نتایج با نتایج حاصل از روش‌های naïve Bayes ، دو الگوریتم مبتنی بر هستان شناسی و یک الگوریتم آماری مقایسه شده است. نتایج به دست آمده نشان می‌دهند که روش پیشنهاد شده مقادیر F-measure و Accuracy را بهبود می‌دهد. همچنین مقادیر FP و Error به میزان قابل توجهی کاهش می‌یابد.
منبع :نشریه فناوری اطلاعات و ارتباطات ایران

لینک دریافت کامل مقاله

خوشه‌بندی اسناد، گراف هستان شناسی، معيار شباهت، سيستم اسنتاج فازی،

مطلب قبلیطراحی اولين پايگاه داده کلمات دستنويس کردی برای سيستم های تشخيص تصويری کلمات مطلب بعدیبررسی عوامل موثر بر موفقيت تجارت الکترونيک B2C از ديدگاه مديريتی

اسنپ پنهان‌سازی شماره‌ی تلفن کاربران و رانندگان را در مشهد اجرا کرد

ایرانسل از سرویس ویژه افراد کم‌بینا رونمایی کرد

ورود مسافری گوشی تلفن همراه آیفون ایکس ممنوع نیست

بازار ۹۲۰ میلیارد دلار سازمان‌های کوچک حوزه خلیج فارس تا سال ۲۰۲۲

گوگل خدمات جستجوی آنی عکس، خبر و ویدئو ارائه می‌‌دهد

آمازون، در تدارک راه اندازی سومریان

ارائه مدل استراتژیک برای توسعۀ بانکداری الکترونیک در بانک‌های تجاری ایران

چارچوب COBIT ابزاری مناسب برای اندازه گیری بلوغ حاکمیت فنّاوری اطلاعات در سازمانها (مطالعه موردی بانکهای دولتی در ایران)

بررسی تأثیر استقرار کارت‌ هوشمند سلامت بر کیفیت ‌خدمات ‌بهداشتی درمانی (پیمایشی در مرکز آموزشی‌ پژوهشی‌ درمانی شهید‌ دکتر‌ بهشتی‌ قم)

بهترین نرم افزار ارتباط با مشتریان (CRM) کدام است؟

ERP در ده سال گذشته

مهم‌ترین وب‌سایت‌های تشخیص سرقت ادبی یا Plagiarism

بررسی میزان کاربست اخلاق و شایستگی‌های حرفه‌ای توسط اعضای هیأت علمی آموزش های مجازی(مورد کاوی: دانشگاه های اصفهان و علوم پزشکی اصفهان)

نقش واحد پیشخوان خدمت در ارتقاء کیفیت ارائه خدمات و عوامل موثر در ایجاد آن

چگونگی ارزیابی نرم افزارهای مخزن سازمانی: تجربه ای از یک مورد

شناسایی و رتبه بندی عوامل ریسک رایانش ابری در سازمان های دولتی

مدیریت تغییر در فرایندهای کسب‌وکار

رتبه‎بندی عوامل مؤثر بر اعتمادسازی در محیط اینترنت با استفاده از تکنیک فرآیند تحلیل سلسله‎مراتبی (AHP) مقاله ۱، دوره ۳، شماره ۷، تابستان ۱۳۹۰، صفحه ۱-۱۸

روشهای ارزیابی معماری نرم افزار

اصول معماری اطلاعات، استانداردها، ارزیابی و ابزار

خوشه‌بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

پاسخ دهید لغو پاسخ

بازار ۹۲۰ میلیارد دلار سازمان‌های کوچک حوزه خلیج فارس تا سال ۲۰۲۲

بانکها ۳۴ هزار میلیارد تومان در دو ماه اول سال وام دادند

شناسایی و رتبه بندی عوامل ریسک رایانش ابری در سازمان های دولتی

دانش های نه گانه مدیریت پروژه (PMBOK) چیست؟

بازار ۹۲۰ میلیارد دلار سازمان‌های کوچک حوزه خلیج فارس تا سال ۲۰۲۲

آیا در کاخ سفید استفاده از گوشی همراه ممنوع می شود؟

اپل آیفون جدید ارزان عرضه می کند

گوگل خدمات جستجوی آنی عکس، خبر و ویدئو ارائه می‌‌دهد

محبوب ترین ها

بازار ۹۲۰ میلیارد دلار سازمان‌های کوچک حوزه خلیج فارس تا سال ۲۰۲۲

بانکها ۳۴ هزار میلیارد تومان در دو ماه اول سال وام دادند

شناسایی و رتبه بندی عوامل ریسک رایانش ابری در سازمان های دولتی

دانش های نه گانه مدیریت پروژه (PMBOK) چیست؟

خوشه‌بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

مطالب مشابه

پاسخ دهید لغو پاسخ

محبوب ترین ها