پیشینه تحقیق دادهکاوی و خوشه بندی و روش های آن و الگوریتم خوشه بندی دارای ۷۴ صفحه می باشد فایل پیشینه تحقیق به صورت ورد word و قابل ویرایش می باشد. بلافاصله بعد از پرداخت و خرید لینک دنلود فایل نمایش داده می شود و قادر خواهید بود آن را دانلود و دریافت نمایید . ضمناً لینک دانلود فایل همان لحظه به آدرس ایمیل ثبت شده شما ارسال می گردد.
۱-۱ مقدمه ای بر دادهکاوی ۵
۱-۲ تکنیکهای دادهکاوی ۷
۱-۳ مقدمهای بر خوشهبندی ۸
۱-۴ تفاوت خوشهبندی و دستهبندی ۸
۱-۵ یادگیری با نظارت در مقابل یادگیری بدوننظارت ۹
۱-۶ کاربردهای خوشه بندی ۱۰
۱-۷ تقسیمبندی روشهای خوشهبندی از جنبه های گوناگون ۱۰
۱-۸ طبقه بندی دیگری از روشهای اصلی خوشهبندی ۱۱
۱-۸-۱ روش افرازبندی ۱۱
۱-۸-۱-۱ روش خوشهبندی K-Means (C-Means یا C-Centeriod) ۱۳
۱-۸-۱-۲ الگوریتم خوشهبندی LBG ۱۴
۱-۸-۲ روشهای سلسله مراتبی ۱۵
۱-۸-۲-۱ خوشهبندی با روش Single-Link ۱۸
۱-۸-۲-۲ خوشهبندی با روش Complete-Link ۱۹
۱-۸-۲-۳ خوشهبندی با روش Average-Link ۲۰
۱-۸-۲-۴ دیگر روشهای خوشه بندی سلسله مراتبی ۲۰
۱-۸-۳ روش مبتنی بر چگالی ۲۲
۱-۸-۳-۱ الگوریتم خوشهبندی براساس چگالی DBSCAN : ۲۵
۱-۸-۳-۲ الگوریتم سلسله مراتبی خوشهبندی براساس چگالی OPTICS : ۲۶
۱-۸-۴ روشهای مبتنی بر شبکه های مشبک (Grid based) ۲۷
۱-۸-۵ روشهای مبتنی بر مدل ۲۷
۱-۸-۶ روش های فازی ۲۷
۱-۹ هدف خوشه بندی ۲۸
۱-۱۰ اندازهگیری کیفیت خوشهبندی ۲۹
۱-۱۱ بررسی تکنیکهای اندازهگیری اعتبار خوشهها ۳۰
۱-۱۲ شاخصهای اعتبارسنجی ۳۱
۱-۱۲-۱ شاخص دون (Dunn Index) ۳۲
۱-۱۲-۲ شاخص دیویس بولدین (Davies Bouldin Index) ۳۳
۱-۱۲-۳ شاخصهای اعتبارسنجی ریشه میانگین مربع انحراف از معیار (RMSSDT) و ریشه R (RS): ۳۴
۱-۱۲-۴ شاخص اعتبارسنجی SD ۳۵
۱-۱۲-۵ شاخص اعتبارسنجی S_Dbw ۳۶
۱-۱۲-۶ آزمایش ومقایسه کارایی شاخصهای اعتبار سنجی ۳۷
۱-۱۳ خوشه بندی ترکیبی ۴۰
۱-۱۳-۱ ایجاد پراکندگی در خوشهبندی ترکیبی ۴۱
۱-۱۳-۲ تابع توافقی ۴۳
۱-۱۳-۳ مشکلات پیش روی خوشهبندی ترکیبی ۴۴
۲-۱ مقدمه ۴۶
۲-۲ خوشه بندی فازی ۴۶
۲-۳ الگوریتم خوشه بندی c میانگین (Fuzzy c-mean) ۴۹
۲-۴ الگوریتم PFCM ۵۲
۲-۵ الگوریتم AFCM ۵۴
۲-۶ الگوریتم FPCM ۵۵
۲-۷ الگوریتم خوشه بندی c میانگین برای داده های نویزی: ۵۶
۲-۸ الگوریتم خوشه بندی c میانگین با استفاده از نمونه های برچسب گذاری شده: ۵۸
۲-۹ توابع ارزیابی خوشه ۵۸
۲-۹-۱ تابع ارزیابی ضریب افراز ۵۹
۲-۹-۲ تابع ارزیابی آنتروپی افراز ۶۰
۲-۹-۳ تابع Fukuyama and Sugeno ۶۰
۲-۹-۴ تابع Beni Xie and ۶۱
۲-۹-۵ تابع N.Zahid ۶۲
۲-۹-۶ تابع M.Ramze Rezaee ۶۳
۲-۱۰ خوشهبندی ترکیبی ۶۵
مراجع ۷۱
]۱[عظیمی ج. ،معانی ر . و مزینی ن. ، ) ۱۳۸۴ (، خوشهبندی ترکیبی بهبود داده شده، یازدهمین کنفرانس بینالمللی کامپیوتر، انجمن کامپیوتر ایران، پژوهشگاه دانشهای بنیادی، پژوهشکده علوم کامپیوتر، ۴ تا ۶ بهمن، تهران، ایران.
]۲[عظیمی ج.، ۱۳۸۶، بررسی پراکندگی در خوشه بندی ترکیبی، پایان نامه کارشناسی ارشد، دانشگاه علم وصنعت ایران، خرداد.
]۳[علیزاده ح.، مینایی بیدگلی ب.، ( ۱۳۸۷)، بررسی روشهای ارزیابی خوشه بندی، کنفرانس ملی مهندسی نرم افزار و کاربردهای آن، لاهیجان، ایران.
[۴] Adriaans P. and Zantinge D., Introduction to Data Mining and Knowledge Discovery، Third Edition ، Data Mining New York: Addison Wesley ۱۹۹۶
[۵] Han J., Kamber M. and Pei J., DataMining: Concepts and Techniques, Thired Edition Elsevier Inc 2012
[۶] Alpaydin E., “Introduction to Machine Learning”, The MIT Press, 2004
[۷] Web A. R., “Statistical Pattern Recognition”, John Wiley & Sons, 2002
[۸] Keller F., “Clustering”, Computer University Saarlandes, Tutorial Slides
[۹] Sander J., “Principles of Knowledge Discovery in Data: Clustering I”, Department of Computing Science University of Alberta, Tutorial Slides, 2003
[۱۰] Duda R. O., Hart P. E., Stork D. G., “Pattern Classification And Scene Analysis”, John Wiley & Sons, 2000
[۱۱] Huang X., Acero A., Hon H.W., “Spoken Language Processing”, Printice Hall, 2000
[۱۲] Dubes R.C., Jain A.K., Clustering methodology in exploratory data analysis. In: Advances in Computers. Academic press, New York, pp. 113–۲۲۵٫ ۱۹۸۰٫
[۱۳]Kovács F., Legány C., Babos A., “Cluster Validity Measurement Techniques”, Department of Automation and Applied Informatics, Budapest University of Technology and Economics, 2003
[۱۴]Strehl A. and Ghosh J. (2002), Cluster ensembles – a knowledge reuse framework for combining multiple partitions. Journal of Machine Learning Research, 3(Dec):583–۶۱۷٫
[۱۵]Fred, A. and Jain, A. K. (2002). “Data Clustering Using Evidence Accumulation”, Proc. of the 16th Intl. Conf. on Pattern Recognition, ICPR02, Quebec City, pp. 276 – ۲۸۰٫
[۱۶] Parvin H., Alizadeh H. and Minaei-Bidgoli B. (2009), A New Method for Constructing Classifier Ensembles, International Journal of Digital Content: Technology and its Application,JDCTA, ISSN: 1975-9339, (in press).
[۱۷] Parvin H., Alizadeh H. and Minaei-Bidgoli B. (2009), Using Clustering for Generating Diversity in Classifier Ensemble, International Journal of Digital Content: Technology and its Application, JDCTA, ISSN: 1975-9339, Vol. 3, No.1, pp. 51-57.
[۱۸] Alizadeh H., Minaei-Bidgoli B. and Amirgholipour S.K. (2009), A New Method for Improving the Performance of K Nearest Neighbor using Clustering Technique, International Journal of Convergence Information Technology, JCIT, ISSN: 1975-9320 (in press).
[۱۹] Fred A. and Lourenco A. (2008), Cluster Ensemble Methods: from Single Clusterings to Combined Solutions, Studies in Computational Intelligence (SCI), 126, 3–۳۰٫
در دو دهه قبل توانایی های فنی بشر در تولید و جمع آوری داده ها به سرعت افزایش یافته است . عواملی نظیر به خدمتگرفتن کامپیوتر در کسب و کار، علوم ، خدمات دولتی و پیشرفت در وسائل جمعآوری داده، از اسکن کردن متون و تصاویر تا سیستمهای سنجش از دور ماهواره ای، در این تغییرات نقش مهمی دارند. بطور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را با حجم وحشتناکی ازداده و اطلاعات مواجه میکند. این رشد انفجاری در داده های ذخیره شده، نیاز مبرمی برای تکنولوژی های جدید و ابزارهای خودکاری ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند.
داده کاوی به عنوان یک راه حل برای این مسائل مطرح می باشد. در یک تعریف غیر رسمی داده کاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی می کنند، که این دانش به صورت ضمنی در پایگاه داده های عظیم، انباره داده و دیگر مخازن بزرگ اطلاعات، ذخیره شده است.
دادهکاوی، پایگاهها و مجموعههای حجیم دادهها را در پی کشف واستخراج دانش، مورد تحلیل و کند و کاوهای ماشینی (و نیمهماشینی) قرار میدهد. این گونه مطالعات و کاوشها را به واقع میتوان همان امتداد و استمرار دانش کهن و همه جا گیر آمار دانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینهها و کاربردها، و نیز ابعاد و اندازههای دادههای امروزین است که شیوههای ماشینی مربوط به یادگیری، مدلسازی، و آموزش را طلب مینماید. [۴]
اصلی ترین دلیلی که باعث شد داده کاوی کانون توجهات در صنعت اطلاعات قرار بگیرد، مساله در دسترس بودن حجم وسیعی از داده ها و نیاز شدید به اینکه از این داده ها اطلاعات و دانش سودمند استخراج کنیم. اطلاعات و دانش بدست آمده در کاربردهای وسیعی از مدیریت کسب و کار وکنترل تولید و تحلیل بازار تا طراحی مهندسی و تحقیقات علمی مورد استفاده قرار می گیرد.
داده کاوی را می توان حاصل سیر تکاملی طبیعی تکنولوژی اطلاعات دانست، که این سیر تکاملی ناشی از یک سیر تکاملی در صنعت پایگاه داده می باشد، نظیر عملیات: جمع آوری داده ها وایجاد پایگاه داده، مدیریت داده و تحلیل و فهم داده ها. تکامل تکنولوژی پایگاه داده و استفاده فراوان آن در کاربردهای مختلف سبب جمع آوری حجم داده فراوان شده است .این داده های فراوان باعث ایجاد نیاز برای ابزارهای قدرتمند برای تحلیل داده ها گشته، زیرا در حال حاضر به لحاظ داده ثروتمند هستیم ولی دچار کمبود اطلاعات می باشیم .شکاف موجود بین داده ها و اطلاعات سبب ایجاد نیاز برای ابزارهای داده کاوی شده است تا داده های بی ارزش را به دانشی ارزشمند تبدیل کنیم.
به طور ساده داده کاوی به معنای استخراج یا “معدن کاری ” دانش از مقدار زیادی داده خام است. البته این نامگذاری برای این فرآیند تا حدی نامناسب است، زیرا به طور مثال عملیات معدن کاری برای استخراج طلا از صخره و ماسه را طلا کاوی می نامیم، نه ماسه کاوی یا صخره کاوی، بنابراین بهتر بود به این فرآیند نامی شبیه به “استخراج دانش از داده” می دادیم که متاسفانه بسیارطولانی است.
دانش کاوی” به عنوان یک عبارت کوتاهتر به عنوان جایگزین، نمی تواند بیانگر تاکید واهمیت بر معدن کاری مقدار زیاد داده باشد. معدن کاری عبارتی است که بلافاصله انسان را به یاد فرآیندی می اندازد که به دنبال یافتن مجموعه کوچکی از قطعات ارزشمند از حجم بسیار زیادی از مواد خام هستیم، با توجه به مطالب عنوان شده، با اینکه این فرآیند تا حدی دارای نامگذاری ناقص است ولی این نامگذاری یعنی دادهکاوی بسیار عمومیت پیدا کرده است. البته اسامی دیگری نیز برای این فرآیند پیشنهاد شده که بعضا بسیاری متفاوت با واژه دادهکاوی است، نظیر: استخراج دانش از پایگاه داده، استخراج دانش ، آنالیز داده / الگو، باستان شناسی داده ، و لایروبی داده ها. بسیاری از مردم داده کاوی را هم ارز با واژگانی نظیر کشف دانش در پایگاه داده می دانند[۵].
کشف دانش دارای مراحل تکراری زیر است:
۱‐ پاکسازی داده ها (از بین بردن نویز و ناسازگاری داده ها)
۲‐ یکپارچه سازی داده ها (چندین منبع داده ترکیب می شوند)
۳‐ انتخاب داده ها (داده های مرتبط با آنالیز از پایگاه داده بازیابی می شوند)
۴‐ تبدیل کردن داده ها(تبدیل داده ها به فرمی که مناسب برای داده کاوی باشد مثل خلاصه سازی و همسانسازی)
۵ ‐داده کاوی (فرایند اصلی که روالهای هوشمند برای استخراج الگوها از داده ها به کار گرفته می شوند)
۶ ‐ارزیابی الگو (برای مشخص کردن الگوهای صحیح و مورد نظر به وسیله معیارهای اندازه گیری)
۷ ‐ارائه دانش (یعنی نمایش بصری، تکنیکهای بازنمایی دانش برای ارائه دانش کشف شده به کاربر استفاده می شود)
که بر طبق این دیدگاه داده کاوی تنها یک مرحله از کل فرآیند است، البته به عنوان یک مرحله اساسی که الگوهای مخفی را آشکار می سازد[۵].
تکنیکهای استفاده شده در فرآیند داده کاوی تعیین می کند که چه نوع الگویی در کار داده کاوی قابل دستیابی است.کار داده کاوی دو نوع عملکرد خواهد داشت: توصیف کننده و پیش بینی کننده داده کاوی توصیف کننده، به توصیف مشخصه عمومی داده ها می پردازد و داده کاوی پیش بینی کننده بر اساس داده های موجود به پیش بینی روند آتی می پردازد. از آنجاییکه بعضی از الگوها برای همه داده های منبع داده، قابل اعمال نیست، همیشه باید یک معیار اطمینان بخشی یا “میزان صحت ” به هر الگوی کشف شده نسبت داد. تکنیکهای داده کاوی بسیاری موجود است که با توجه به هدفی که از داده کاوی داریم از میان آنها بر می گزینیم.این تکنیکها همانند قوانین انجمنی، دسته بندی ،خوشه بندی و…بوده که هر یک شامل الگوریتم های بسیاری می باشد. ما در اینجا به خوشه بندی می پردازیم و الگوریتم های آنرا مرور میکنیم وپیشرفتهای صورت گرفته در این تکنیک را بررسی مینماییم. [۵]
خوشهبندی را میتوان به عنوان مهمترین مسئله در یادگیری بدون نظارت در نظر گرفت. خوشهبندی با یافتن یک ساختار درون یک مجموعه از دادههای بدون برچسب درگیر است. خوشه به مجموعهای از دادهها گفته میشود که به هم شباهت داشته باشند. در خوشهبندی سعی میشود تا دادهها به خوشههایی تقسیم شوند که شباهت بین دادههای درون هر خوشه حداکثر و شباهت بین دادههای درون خوشههای متفاوت حداقل شود. [۶,۷]
در طبقهبندی هر داده به یک طبقه (کلاس) از پیشین مشخص شده تخصیص مییابد ولی در خوشهبندی هیچ اطلاعی از کلاسهای موجود درون دادهها وجود ندارد و به عبارتی خود خوشهها نیز از دادهها استخراج میشوند. در شکل زیر تفاوت بین خوشهبندی و طبقهبندی بهتر نشان داده شده است. [۸]
در یادگیری با نظارت از ابتدا دستهها مشخص هستند و هر یک از دادههای آموزشی به دستهای خاص نسبت داده شده است و اصطلاحأ گفته میشود ناظری وجود دارد که در هنگام آموزش اطلاعاتی علاوه بر دادههای آموزش در اختیار یادگیرنده (Learner) قرار میدهد. ولی در یادگیری بدون نظارت هیچ اطلاعاتی بجز دادههای آموزشی در اختیار یادگیرنده قرار ندارد و این یادگیرنده است که بایستی در دادهها به دنبال ساختاری خاص بگردد.[۸, ۹]
از آنجا که خوشهبندی یک روش یادگیری بدون نظارت محسوب میگردد، در موارد بسیاری میتواند کاربرد داشته باشد.[۱۰]
در بازاریابی (Marketing): دستهبندی مشتریها به دستههایی بر حسب رفتارها و نیازهای آنها از طریق مجموعه زیادی از ویژگیها و آخرین خریدهای آنها.
زیستشناسی (Biology): دستهبندی حیوانات و گیاهان از روی ویژگیهای آنها
کتابداری : دستهبندی کتابها
نقشهبرداری شهری (City-Planning): دستهبندی خانهها بر اساس نوع و موقعیت جغرافیایی آنها.
مطالعات زلزلهنگاری (Earthquake studies): تشخیص مناطق حادثهخیز بر اساس مشاهدات قبلی.
وب (WWW): دستهبندی اسناد و یا دستهبندی مشتریان به سایتها و ….
داده کاوی (Data Mining): کشف اطلاعات و ساختار جدید از دادههای موجود
در تشخیص گفتار (Speech Recognition): در ساخت کتاب کد از بردارهای ویژگی، در تقسیم کردن گفتار بر حسب گویندگان آن و یا فشردهسازی گفتار
در تقسیمبندی تصاویر(Image Segmentation): تقسیمبندی تصاویر پزشکی و یا ماهوارهای
تمامی فایل های پیشینه تحقیق و پرسشنامه و مقالات مربوطه به صورت فایل دنلودی می باشند و شما به محض پرداخت آنلاین مبلغ همان لحظه قادر به دریافت فایل خواهید بود. این عملیات کاملاً خودکار بوده و توسط سیستم انجام می پذیرد. جهت پرداخت مبلغ شما به درگاه پرداخت یکی از بانک ها منتقل خواهید شد، برای پرداخت آنلاین از درگاه بانک این بانک ها، حتماً نیاز نیست که شما شماره کارت همان بانک را داشته باشید و بلکه شما میتوانید از طریق همه کارت های عضو شبکه بانکی، مبلغ را پرداخت نمایید.
ارسال نظر