تحقیق الگوهای نوظهور و کلاسه بندها و الگوریتمهای مرسوم در استخراج آن

تحقیق الگوهای نوظهور و کلاسه بندها و الگوریتمهای مرسوم در استخراج آن

دسته: رشته کامپیوتر

فرمت : word | صفحات : 41

قیمت: 5000 تومان
605 views

پیشینه تحقیق الگوهای نوظهور و کلاسه بندها و الگوریتمهای مرسوم در استخراج آن دارای ۴۱ صفحه می باشد فایل پیشینه تحقیق به صورت ورد word و قابل ویرایش می باشد. بلافاصله بعد از پرداخت و خرید لینک دنلود فایل نمایش داده می شود و قادر خواهید بود آن را دانلود و دریافت نمایید . ضمناً لینک دانلود فایل همان لحظه به آدرس ایمیل ثبت شده شما ارسال می گردد.

فهرست مطالب

فصل اول: مقدمه۵
۱-۱-مقدمه۵
۱-۲-مفهوم الگوهای نوظهور۶
۱-۳-مفهوم ویژگی های جریانی۸
۱-۴-چالشهای موجود در استخراج الگوهای نوظهور۹
۱-۵-الگوریتمهای استخراج الگوهای نوظهور۱۲
فصل دوم:مروری بر تحقیقات روشها و الگوریتمهای مرسوم در استخراج الگوهای نوظهور و کلاسه بندی۱۴
۲-۱-مقدمه۱۴
۲-۲-روش های مبتنی بر قانون۱۵
۲-۲-۱٫روش CLASSIFICATION BASED ON ASSOCIATION (CBA) [27]15
۲-۲-۲٫روش کلاسه بندی CLASSIFICATION BASED ON MULTIPLE-CLASS ASSOCIATION RULE (CMAR) [28]16
۲-۲-۳٫روش کلاسه بندیCLASSIFICATION BASED ON PREDICTIVE ASSOCIATION RULE (CPAR) [29]16
۲-۳-روشهای استخراج الگوها۱۶
۲-۳-۱٫روش مبتنی بر مرز۱۷
۲-۳-۲٫روش مبتنی بر محدودیت (CONSEPMINER) [2]17
۲-۳-۳٫الگوریتم استخراج درخت الگوی تقابل (CP-TREE) [17، ۲۵]۱۸
۲-۳-۴٫روش استخراج با کمک دیاگرام دودیی صفر ZBDD MINER [18]18
۲-۳-۵٫روش استخراج الگوی نوظهور متمایز DP MINER19
۲-۴-روش های کلاسه بندی مبتنی بر الگوهای نوظهور۱۹
۲-۴-۱٫روش کلاسه بندی بر اساس مجموع الگوهای نوظهور CAEP[21]20
۲-۴-۲٫الگوریتم کلاسه بندی بر پایه تئوری اطلاعات ICAEP20
۲-۴-۳٫روش کلاسه بندی برپایه الگوهای نوظهور جهشیJEPS-CLASSIFIER [3]21
۲-۴-۴٫روش کلاسه بندی بر پایه الگوهای نوظهور جهشی قوی [۲۵]۲۱
۲-۴-۵٫روش تصمیم گیری مبتنی بر نمونه DEEPS [20]21
۲-۴-۶٫روش پیش بینی توسط مجموعه راست نمایی (PCL) [5]22
فصل سوم:الگوهای نوظهور۲۳
۳-۱-الگوهای نوظهور۲۳
۳-۲-درخت الگوی مکرر دینامیک (DFP-TREE)29
فصل چهارم:کلاسه بندها۳۲
۱-۶-کلاسه بندها۳۳
۱-۶-۱٫کلاسه بند درخت تصمیم C4.533
۱-۶-۲٫کلاسه بند SVM [55]34
۱-۶-۳٫کلاسه بند بیزین ساده [۵۴]۳۵
۱-۶-۴٫کلاسه بند نزدیکترین همسایه۳۶
۱-۶-۵٫الگوریتم AdaBoost [24]36
فهرست منابع۳۸

منابع

۱-Pasquier, Nicolas, Yves Bastide, Rafik Taouil, and Lotfi Lakhal. “Discovering frequent closed itemsets for association rules.” In Database Theory—ICDT’۹۹, pp. 398-416. Springer Berlin Heidelberg, 1999.

۲-Bastide, Yves, Rafik Taouil, Nicolas Pasquier, Gerd Stumme, and Lotfi Lakhal. “Mining frequent patterns with counting inference.” ACM SIGKDD Explorations Newsletter 2, no. 2 (2000): 66-75.

۳-D. Opitz and R. Maclin, “Popular ensemble methods: An empirical study,” Journal of Artificial Intelligence Research, vol. 11, 1999, pp. 169-198.

۴-Bauer, Eric, and Ron Kohavi. “An empirical comparison of voting classification algorithms: Bagging, boosting, and variants.” Machine learning 36, no. 1-2 (1999): 105-139.

۵-J. Demsar, “Statistical comparisons of classiﬁers over multiple data sets”, The Journal of Machine Learning Research, vol. 7, pp. 1-30, 2006.

۶-R. L. Iman and J. M. Davenport, “Approximations of the critical region of the Friedman statistic”, Communications in statistics, vol. 9, no. 6, pp. 571-595, 1980.

۷-Ma, Bing Liu Wynne Hsu Yiming. “Integrating classification and association rule mining.” In Proceedings of the 4th. 1998.

۸-Li, Wenmin, Jiawei Han, and Jian Pei. “CMAR: Accurate and efficient classification based on multiple class-association rules.” In Data Mining, 2001. ICDM 2001, Proceedings IEEE International Conference on, pp. 369-376. IEEE, 2001.

۹-Han, J. “CPAR: Classification based on predictive association rules.” In Proceedings of the third SIAM international conference on data mining, vol. 3, pp. 331-335. 2003.

۱۰-Li, Jinyan, Guimei Liu, and Limsoon Wong. “Mining statistically important equivalence classes and delta-discriminative emerging patterns.” In Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 430-439. ACM, 2007.

۱۱-Perkins, Simon, and James Theiler. “Online feature selection using grafting.” In ICML, pp. 592-599. 2003.

۱۲-J. Aczel and J. Daroczy, “On Measures of Information and Their Characterizations,” New York: Academic, 1975.

۱۳-Mitchell, Tom M. “Machine learning and data mining.” Communications of the ACM 42, no. 11 (1999): 30-36.

۱۴-Song, Hee Seok, and Soung Hie Kim. “Mining the change of customer behavior in an internet shopping mall.” Expert Systems with Applications 21, no. 3 (2001): 157-168.

۱۵-Ungar, Lyle H., Jing Zhou, Dean P. Foster, and R. A. Stine. “Streaming feature selection using iic.” AI&STAT’۰۵ (۲۰۰۵).

فصل اول: مقدمه

۱-۱- مقدمه

کلاسه بندی[۱] یکی از وظایف اساسی در داده کاوی[۲] است که بطور وسیعی در زمینه یادگیری ماشین[۳]، شبکه های عصبی[۴] و تشخیص الگو[۵] مورد مطالعه واقع شده است. ورودی، مجموعه ای از نمونه های آموزشی[۶] است که شامل چندین ویژگی[۷] است. ویژگی ها با توجه به دامنه مقادیرشان به دو دسته ویژگی های گسسته[۸] و ویژگی های پیوسته[۹] قابل تفکیک هستند. در حالت کلی، یک کلاسه بند[۱۰]، توصیف مختصر و معنادار (مدل[۱۱]) برای هر برچسب کلاس[۱۲] در رابطه با ویژگی ها تولید می کند. سپس، مدل برای پیش بینی برچسب کلاس نمونه های ناشناخته[۱۳] بکار می رود. کلاسه بندی همچنین بعنوان یادگیری با ناظر[۱۴] نیز شناخته می شود که در آن هر نمونه آموزشی دارای برچسب کلاس است. در حالی که، یادگیری بدون ناظر[۱۵] یا خوشه بندی[۱۶] جستجو می کند و گروه های همگن از اشیا را بر اساس مقادیر ویژگی هایشان دسته بندی می کند؛ در واقع، نمونه ها دارای برچسب کلاس نیستند. کلاسه بندی در محدوده وسیعی از کاربردها از جمله آزمایشات علمی[۱۷]، تشخیص دارو[۱۸]، پیش بینی آب و هوا[۱۹]، تایید اعتبار[۲۰]، تقسیم بندی مشتری[۲۱]، بازاریابی هدف[۲۲] و تشخیص تقلب[۲۳] بطور موفقیت آمیزی بکار می رود.

کلاسه بندی بر پایه الگوها[۲۴]، یک متدلوژی جدید محسوب می شود. کشف الگوهایی که نشاندهنده تمایز بین کلاس های مختلف هستند، یکی از موضوعات مهم در داده کاوی محسوب می شود. در این تحقیق، ما کلاسه بندی را بر اساس الگوهایی به نام الگوهای نوظهور[۲۵] (Emerging Patterns) که تمایز بین کلاس ها را بصورت بارزی نشان می دهند، از مجموعه داده ها[۲۶] استخراج می کنیم و سپس، بر اساس آنها، کلاسه بندی را انجام می دهیم.

در این نوشتار به چهار فصل تقسیم شده است. در فصل دوم، به بررسی روشها و الگوریتمهای مرسوم در استخراج الگوهای نوظهور و کلاسه بندی آنها می پردازد. در فصل سوم، دانش اولیه درباره الگوهای نوظهور و درخت های الگوی مکرر در قالب تعاریف بیان می شود. در فصل چهارم، کلاسه بندها، معیارهای ارزیابی عملکرد، به تفصیل توضیح داده میشوند.

۱-۲- مفهوم الگوهای نوظهور

مفهوم الگوهای نوظهور برای استخراج دانش از پایگاه داده ها توسط Dong و Li پیشنهاد شده است تا تغییرات قابل توجه بین کلاس ها را به تصویر بکشند [۱]. یک الگوی نوظهور، ترکیب عطفی بین ویژگی هایی است که میزان احتمال حضور آن در یک کلاس نسبت به دیگر کلاس ها بطور قابل توجهی تغییر می کند [۱،۲]. این الگوها مفید هستند به این دلیل که قادر هستند تا وجه تمایز بین کلاس ها را بیان کنند. در صورتی که میزان فراوانی[۲۷] هر الگو که در یک کلاس نسبت به دیگر کلاس ها قابل توجه باشد، نشاندهنده آن است که این الگو، بطور خاص به این کلاس اختصاص دارد و از طرفی این نوع الگوها برای پایگاه داده هایی که بحث محدودیت زمانی برای استخراج دانش از آنها مطرح است، اهمیت ویژه ای می یابند.

استخراج الگوهای نوظهور بدین صورت مطرح می شود: « پیدا کردن آیتم هایی که نرخ رشد[۲۸] آن (که بصورت نسبت احتمال آن آیتم بین کلاس های مختلف تعریف می شود) از مقدار آستانه ای بیشتر باشد.» این مقدار آستانه باید بگونه ای انتخاب شود که الگوهای استخراجی ، تفاوت و تمایز بین کلاس های مختلف را نشان دهند. این الگوها در واقع مجموعه ای از آیتم ها هستند که بیان کننده ترکیب عطفی بین مقادیر ویژگی ها هستند [۲].

نوعاً، تعداد الگوهای استخراجی بسیار زیاد است اما فقط شمار کمی از این الگوها برای تحلیل داده ها و کلاسه بندی مطلوب و مفید هستند. از آن جایی که مقدار زیادی از این الگوها بی ربط[۲۹] و تکراری[۳۰] هستند، دانش جدیدی را فراهم نمی کنند و لذا تاثیر نامطلوبی بر روی دقت کلاسه بند دارند که موجب کاهش دقت پیش بینی[۳۱] می شوند. برای افزایش کارایی[۳۲] و دقت، بایستی روالی را توسعه داد که الگوهای وابسته و غیر مفید حذف شوند تا شمار این الگوها کاهش یابد.

یک الگوی نوظهور با احتمال بالا در کلاس خودش و احتمال پایین در کلاس مقابلش می تواند برای تعیین یک نمونه تست بکار رود. قدرت این الگو توسط معیارهایی مثل فراوانی نسبی[۳۳] و نرخ رشد ( نسبت احتمال الگو در یک کلاس نسبت به دیگر کلاس ها) آن بیان می شود.

در بسیاری از زمینه های کاربردی مانند کشف دانش از داده های ژنی[۳۴] ، پردازش تصویر[۳۵]، کشف نفوذ[۳۶] ، کشف برون هشته[۳۷]، کشف کلاهبرداری[۳۸] ، داده های نامتوازن[۳۹] ، جریان داده ها[۴۰] ، بیوانفورماتیک[۴۱] ، سیستم های پیشنهاد دهنده[۴۲] ، نیاز است که تغییر ناگهانی در داده ها تشخیص داده شود. الگوهای نوظهور تغییرات ناگهانی و تفاوت های قابل توجه را از داده ها استخراج می کنند. الگوهای نوظهور، در زمینه پردازش تصویر برای قطعه بندی بدین گونه عمل می کند که سعی می کند در پیکسل هایی که تغییر ناگهانی شدت[۴۳] بوجود می آید را بعنوان یک قطعه جدید معرفی کند. در زمینه کشف نفوذ و کلاهبرداری، رفتار داده ها پیگیری می شود، زمانی که رفتار داده ها بصورت ناگهانی تغییر کند، بعنوان نفوذ تشخیص داده می شود. در سیستم های پیشنهاد دهنده، سیستم به دنبال رفتارهای خاص و مختص هر کاربر است تا با کشف ویژگی های خاص هر کاربر، به او محصولات مطابق با علایق و استعدادهای او را پیشنهاد دهد. لذا الگوهای نوظهور در این راستا نقش بسزایی دارند.

۱-۲مفهوم ویژگی های جریانی[۱]

در داده های جریانی[۲]، نمونه ها به مرور زمان دریافت می شوند در حالیکه تعداد ویژگی ها ثابت می باشد. اما در ویژگی های جریانی، تعداد داده های یادگیری ثابت می باشد ولی ویژگی ها بصورت دینامیک تولید می شوند و الگوریتم یادگیری به مرور زمان ویژگی ها را دریافت می دارد [۳۱، ۳۲]. در ویژگی های جریانی روال بدین صورت است ویژگی های توسط روش های تولید ویژگی مانند روش های یادگیری رابطه ای آماری[۳] و تعاملات بین ویژگی ها[۴]، تولید می شوند. مشکلاتی که در پی تولید ویژگی ها توسط این روش ها بروز می کند بدین شرح است که: ۱) میلیون ها و یا حتی بیلیون ها ویژگی تولید می شوند که بدلیل محدودیت های حافظه امکان نگهداری این حجم از ویژگی وجود دارد و از طرفی زمان بسیار زیادی بایستی صرف شود تا فرآیند یادگیری شروع شود. ۲) ویژگی ها توسط کوئری های موجود در SQL تولید می شوند که اجرای این کوئری ها محدود به زمان پروسسور[۵] است تقریبا پروسسور هر صدهزار کوئری را در ۲۴ ساعت اجرا می کند. از طرفی بسیاری از ویژگی ها تولیدی بی ربط و تکراری هستند[۶]. این موضوع نشان می دهد که شمار کمی از این ویژگی های تولیدی در عمل در فرآیند یادگیری موثر است و لذا تولید ویژگی ها هزینه بر است [۳۲]. بر این اساس برای فائق آمدن بر این مشکلات، مفهوم ویژگی های جریانی شکل گرفت و تلاش شد تا با تولید دینامیک ویژگی ها و بررسی این ویژگی ها در زمان تولید و تاثیر آن بر روال یادگیری فرآیند تولید ویژگی ها را هدایت کنند.

[۱] Streaming features

[۲] Data Streams

[۳] Statistical Relational Learning

[۴] Feature interaction

[۵] CPU time

[۶] Irrelevant Features

[۱] Classification

[۲] Data mining

[۳] Machine learning

[۴] Neural networks

[۵] Pattern recognition

[۶] Training instances

[۷] Features

[۸] Nominal

[۹] Numerical

[۱۰] Classifier

[۱۱] Model

[۱۲] Class label

[۱۳] Unknown

[۱۴] Supervised learning

[۱۵] Unsupervised learning

[۱۶] Clustering

[۱۷] Scientific experiments

[۱۸] Medical diagnosis

[۱۹] Weather prediction

[۲۰] Credit approval

[۲۱] Customer segmentation

[۲۲] Target marketing

[۲۳] Fraud detection

[۲۴] Patterns

[۲۵] Emerging patterns

[۲۶] Datasets

[۲۷] Frequency

[۲۸] Growth rate

[۲۹] Irrelevant patterns

[۳۰] Redundant patterns

[۳۱] Predictive accuracy

[۳۲] Performance

[۳۳] Support

[۳۴] Gene expression data

[۳۵] Image processing

[۳۶] Intrusion detection

[۳۷] Outlier detection

[۳۸] Fraud detection

[۳۹] Imbalanced datasets

[۴۰] Data streams

[۴۱] BioInformatics

[۴۲] Recommender systems

[۴۳] Intensity

تمامی فایل های پیشینه تحقیق و پرسشنامه و مقالات مربوطه به صورت فایل دنلودی می باشند و شما به محض پرداخت آنلاین مبلغ همان لحظه قادر به دریافت فایل خواهید بود. این عملیات کاملاً خودکار بوده و توسط سیستم انجام می پذیرد. جهت پرداخت مبلغ شما به درگاه پرداخت یکی از بانک ها منتقل خواهید شد، برای پرداخت آنلاین از درگاه بانک این بانک ها، حتماً نیاز نیست که شما شماره کارت همان بانک را داشته باشید و بلکه شما میتوانید از طریق همه کارت های عضو شبکه بانکی، مبلغ را پرداخت نمایید.

مطالب پیشنهادی:

تحقیق یادگیری طبقه بندی کننده های فازی و معرفی الگوریتم رقابت استعماری

تحقیق الگوریتم نزدیک ترن همسایه و روش های موجود برای بهبود آن

تحقیق تشکل ها در شبکه های اجتماعی و الگوریتم های شناسایی تشکل

تحقیق امنیت و تکنیک های مقابله با تهدیدها در شبکه های اقتضایی متحرک و سیستم ایمنی مصنوعی و الگوریتم ها و تئوری های آن

تحقیق داده کاوی و الگوریتم‌های رایج دسته‌بندی و الگوریتم بهینه‌سازی ازدحام ذرات و سیستم های فازی