پیشینه تحقیق روشهای مرسوم برای حل مسائل چندکلاسه دارای ۳۴ صفحه می باشد فایل پیشینه تحقیق به صورت ورد word و قابل ویرایش می باشد. بلافاصله بعد از پرداخت و خرید لینک دنلود فایل نمایش داده می شود و قادر خواهید بود آن را دانلود و دریافت نمایید . ضمناً لینک دانلود فایل همان لحظه به آدرس ایمیل ثبت شده شما ارسال می گردد.
۱-۱٫ مقدمه ۳
۱-۲٫ یادگیری ماشین ۳
۱-۳٫ الگوریتمهای یادگیری جمعی ۵
۱-۴٫ دسته بندی کننده های سریال ۶
۱-۵٫ مقدمه ۷
۱-۶٫ اهمیت مسائل چندکلاسه ۷
۱-۷٫ روشهای BOOSTING ۱۰
۱-۷-۱٫ مسائل دوکلاسه ۱۲
۱-۷-۲٫ مسائل چندکلاسه ۱۳
تکنیک های تجزیه کلاسی ۱۴
یکی-در مقابل-همه(OAA) ۱۴
یکی-در مقابل-یکی(OAO) ۱۵
روش P در مقابل Q ۱۶
روشهای BOOSTING چندکلاسه ۱۷
روش ADABOOST.M2 ۱۷
روش ADABOOST.OC ۲۰
روش ADABOOST.ECC ۲۱
۱-۸٫ روشهای جمعی سریال ۲۲
۱-۸-۱٫ دستهبندیکنندهی سریال ۲۳
دستهبندیکنندههای سریال همزمان ۲۷
ساختارهای سریال درختی ۲۹
۱-۹٫ خلاصه ۳۰
فهرست منابع ۳۱
[۱] | J. Han, M. Kamber, and J. Pei, Data mining: concepts and techniques. Morgan Kaufmann, 2011. |
[۲] | I. H. Witten, E. Frank, and M. A. Hall, Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann, 2011. |
[۳] | P. A. viola and M. J. Jones, “Fast and robust classification using asymmetric adaboost and a detector cascade,” in NIPS, Vancouver, British Columbia, Canada, 2001, pp. 1311-1318. |
[۴] | A. L. C. Barczak, M. J. Johnson, and C. H. Messom, “Empirical evaluation of a new structure for adaboost,” in In SAC ’۰۸: Proceedings of the 2008 ACM symposium on Applied computing, Fortaleza,Ceara, Brazil, 2008, pp. 1764-1765. |
[۵] | C. Cortes and V. Vapnik, “Support-vector networks,” Machine Learning, vol. 20, no. 3, pp. 273-297, Sep. 1995. |
[۶] | W. W. Cohen, “Fast effective rule induction,” in In Proceeding of the Twelfth International Conference on Machine Learning, Tahoe City, California, USA, 1995, pp. 115-123. |
[۷] | A. C. Lorena, A. C. Carvalho, and J. M. Gama, “A review on the combination of binary classifiers in multiclass problems,” Artif. Intell. Rev., vol. 30, no. 1-4, pp. 19-37, Dec. 2008. |
[۸] | C. A. Brunk and M. J. Pazzani, “An investigation of noise-tolerant relational concept learning algorithms,” in In Proceeding of the 8th International Workshop on Machine Learning, San Francisco, CA, USA, 1991, pp. 389-393. |
[۹] | J. Furnkranz and G. Widmer, “Incremental reduced error pruning,” in International Conference on Machine Learning, New Brunswick, NJ, USA , 1994, pp. 70-77. |
[۱۰] | L. Breimn, J. Friedman, C. J. Stone, and R. A. Olshen, “Classification and regression trees,” Machine Learning, pp. 293-325, 1984. |
[۱۱] | J. R. Quinlan, “Induction of decision trees,” Machine Learning, vol. 1, no. 1, pp. 81-106, Mar. 1986. |
[۱۲] | S. C. Suh, Practical Applications of Data Mining, 1st ed. Jones & Bartlett Learning, 2011. |
[۱۳] | J. Cendrowska, “PRISM: An algorithm for inducing modular rules,” International Journal of Man-Machine Studies, vol. 27, no. 4, p. 349–۳۷۰, Oct. 1987. |
[۱۴] | E. Frank and I. H. Witten, “Generating accurate rule sets without global optimization,” in ICML ’98 Proceedings of the Fifteenth International Conference on Machine Learning, Madison, Wisconsin, USA, 1998, pp. 144-151. |
[۱۵] | A. Passerini, M. pontil, and P. Frasconi, “New results on error correcting output codes of kernel machines,” Neural Networks, IEEE Transactions, vol. 15, no. 1, pp. 45-54, Jan. 2004. |
[۱۶] | C. W. Hsu and C. J. Lin, “A comparison of methods for multiclass support vector machines,” Neural Networks, IEEE Transactions , vol. 13, no. 2, pp. 415-425, Mar. 2002. |
امروزه شاهد رشد عظیمی در تولید داده هستیم. فعالیتها و تعاملهای روزانه انسانها، حجم چشمگیری از دادهها و اطلاعات را به وجود میآورد؛ به عنوان مثال در ارتباطات از راه دور، تراکنش هایمالی و بانکی، شبکههای اجتماعی، فعالیتهای اینترنتی عام، امور مربوط به بهداشت و درمان، پایش اطلاعات امنیتی، اطلاعات و دادههای آماری مانند سرشماری نفوس و بسیاری موارد دیگر [۱,۲]. با پیشرفت چشمگیر تجهیزات سخت افزاری، هزینه ذخیره داده کم شده است؛ این در حالی است که آنالیز صحیح و استخراج اطلاعات مفید از این حجم از داده به یک دغدغه تبدیل شده است. هوش مصنوعی[۱] و به ویژه حوزه یادگیری ماشین[۲]، به دنبال یافتن روشها و ابزارهای موثر جهت رفع این مشکل می باشد.
اصلیترین زمینه تحقیقاتی در حوزه یادگیری ماشین، شناسایی الگو[۳] است؛ یعنی استخراج اطلاعات و الگوهای تکرار شونده از داده ورودی[۴]، که این اطلاعات برای انجام تصمیمگیری در مورد دادههای نادیده[۵] کاربرد دارد.
بر اساس نوع پیش بینی دادههای نادیده، انواع روشهای شناسایی الگو را می توان به دو گروه کلی روشهای مبتنی بر دستهبندی[۶] و روشهای مبتنی بر رگرسیون[۷] تقسیمبندی کرد. سیستمهای مبتنی بر دستهبندی، سعی در ساختن مدلی دارند که خروجی آن گسسته[۸] میباشد و این خروجی در واقع برچسب کلاسی[۹] است که سیستم برای یک نمونه خاص پیشنهاد میدهد؛ در مقابل، سیستمهای مبتنی بر رگرسیون، تابعی پیوسته[۱۰] را مدل میکنند و خروجی آنها به صورت عددی[۱۱] میباشد.
یادگیری ماشین را میتوان به چهار دسته کلی یادگیری با نظارت[۱۲] و یادگیری بدون نظارت[۱۳]، یادگیری نیمه نظارتی[۱۴] و یادگیری فعال[۱۵] تقسیمبندی کرد. در یادگیری با نظارت، سیستم با دادههای آموزشی که دارای برچسبهای کلاس معین هستند آموزش داده میشود. این گروه از الگوریتمها که بسیار رایج نیز میباشند، سعی در ساخت مدلی دارند که به بهترین نحو دادههای آموزشی را به برچسب کلاس داده شدهی آنها مرتبط سازند. مدل ساخته شده بر این اساس، در مرحله آزمایش[۱۶] سعی در پیش بینی برچسب کلاس دادههای آزمایشی خواهد کرد. در مقابل این گروه از الگوریتم ها، الگوریتم های مبتنی بر یادگیری بدون نظارت، بدون دریافت برچسب کلاس دادههای آموزشی، سعی در دستهبندی دادههای آموزشی میکنند؛ به این نوع از یادگیری، خوشهبندی[۱۷] نیز گفته میشود. گاهی تنها بخشی از برچسب کلاس دادههای آموزشی در دسترس است بنابر این دسته سوم از الگوریتمها، یعنی الگوریتمهای نیمهنظارتی، عملکردی مابین الگوریتمهای نظارتی و الگوریتمهای بدون نظارت دارند. در یادگیری فعال، سیستم در مرحله آموزش، با انسان تعامل دارد؛ به این صورت که انسان برچسبهای مناسب را به دادههای ورودی نسبت میدهد و سیستم با توجه به برچسبهای اختصاص داده شده، به پایش اطلاعات خود و مدل آموزشی میپردازد.
این رساله منحصرا بر روشهای دستهبندی مبتنی بر یادگیری نظارتی تمرکز دارد. به بیان رسمیتر، الگوریتمهایی که از یک مجموعه آموزشی[۱۸] مانند D، شامل n داده نمونه ورودی به فرم {(x1,y1),…, (xn,yn)} که هر نمونه متشکل از یک بردار خصیصه[۱۹] با بعد d و یک برچسب کلاس که برای مسائل K کلاسه، آموزش میبینند و خروجی این آموزش، یک دستهبندیکننده[۲۰] یا فرضیه[۲۱] است که در حالت ایده آل یک مرزبندی تصمیم[۲۲] دقیق برای جداسازی کلاسها در کل فضای انجام خواهد داد.
القای دستهبندیکننده ها هنگامی که تعداد دادههای آموزشی به طرز چشمگیری زیاد باشد با مشکل روبهرو خواهد شد. این پدیده باعث به وجود آمدن مرزهای کلاس[۲۳] پیچیده میشود؛ یادگیری دقیق این مرزها، برای دستهبندیکنندههایی که سعی در تولید یک قانون برای توصیف داده دارند، به چالشی عظیم تبدیل می شود. پیچیدگی این وضعیت زمانی به اوج خود می رسد که بردار خصیصه دادهها، دارای ابعاد بالا[۲۴] باشد.
رواج خانواده خاصی از الگوریتمهای یادگیری ماشین، تحت عنوان الگوریتمهای یادگیری جمعی که سعی در مواجهه و برطرف نمودن چالشهای موجود دارند، طی سالهای اخیر بسیار چشمگیر بوده است. این دسته از الگوریتمها، موفقیت خود را مرهون عملکرد محافظهکارانه خود میباشند. در حالی که اکثر الگوریتمهای یادگیری از القای یک دستهبندیکننده برای توصیف داده استفاده میکنند، الگوریتمهای یادگیری جمعی از تعداد زیادی یادگیرهای ضعیف[۲۵]، که قدرت پیش بینی آنها اندکی بهتر از حدس تصادفی[۲۶] است، بهره می برند. به بیان دیگر، ایده اصلی الگوریتمهای یادگیری جمعی، بهکارگیری چندین یادگیر و ترکیب نتیجه پیشبینی آنها به عنوان یک گروه از دستهبندیکنندهها و بالا بردن دقت کلی[۲۷] یادگیری است. به هر یک از اعضای موجود در این گروه از یادگیرها، یادگیر پایه[۲۸] گفته میشود. در مسائل دستهبندی، الگوریتم یادگیری جمعی به عنوان سیستم دستهبندی چندگانه[۲۹]، ائتلاف دستهبندیکننده ها[۳۰]، کمیتهای از دستهبندیکنندهها[۳۱] و یا ترکیب دستهبندیکنندهها[۳۲] نیز خوانده میشود. پیشبینی هر یک از اعضا ممکن است به صورت یک عدد حقیقی[۳۳]، برچسب کلاس، احتمال پسین[۳۴] و یا هر چیز دیگری باشد. چگونگی ترکیب رأی اعضای الگوریتم، در نتیجهگیری نهایی بسیار مهم است که شامل میانگینگیری، رأی به اکثریت[۳۵] و روشهای احتمالی میشود.
ویولا و جونز [۳] در سال ۲۰۰۱ برای اولین بار قوانین روشهای مبتنی بر یادگیری جمعی را به کمک مفهوم یادگیری کلان-به-جزیی[۳۶] توسعه دادند. با این گام عظیم، آنها روشی را ابداع کردند که انجام دستهبندی دقیق و سریع بر روی مجموعه دادههای تشخیص چهره[۳۷]، که شامل صدها هزار داده بودند، را امکان پذیر می ساخت. روش ابداعی آنها به صورت یک ساختار سریال بود که دستهبندیکنندههای جمعی را در لایههای متوالی به صورتی کنار هم قرار میداد که لایههای اولیه شامل تعداد کمی از دستهبندیکنندهها بود و این تعداد در لایههای بعدی به مرور افزایش مییافت. این روش تاثیر بسزایی در تولید دستهبندیکننده های پیمانهبندیشده[۳۸] و دقیق داشت که به طبع، نه تنها در زمینه تشخیص چهره، بلکه در زمینههای مختلف کاربرد داشت. با این حال آموزش دستهبندیکنندههای موثر با استفاده از روش ویولا و جونز، به علت زمانبر بودن بیش از حد مرحله آموزش، تقریبا مقرونبهصرفه نبود.
در تلاشی برای کاهش زمان آموزش دستهبندیکنندههای سریال در مواجهه با مجموعه دادههای بسیار بزرگ، بارکزاک و همکاران [۴] یک روش سریال تودرتو ارایه کردند. آنها نام روش خود را PSL[39] نهادند که بیانگر دستهبندیکنندههای تودرتوی سریال متشکل از دستهبندیکنندههای قوی موازی در هر لایه است.
در ادامه به معرفی و بررسی تحقیقات پیشین در زمینه حل مسائل دوکلاسه و چندکلاسه توسط روشهای یادگیری جمعی موفق و به خصوص راهکارهای سریال جمعی میپردازد و نقاط ضعف و قدرت هر یک را برمیشمرد. در ابتدای این فصل ابتدا از آنجایی که شراکت اصلی این تحقیق در بهبود حل مسائل چندکلاسه است، به لزوم تمرکز بر حل مسائل چندکلاسه خواهیم پرداخت و کارهای پیشین انجام شده در این حیطه را معرفی خواهیم کرد. سپس به بررسی انواع روشهای یادگیری جمعی خواهیم پرداخت. روشهای کلاسهبندی سریال در رقابت تنگاتنگی با روشهای یادگیری جمعی تقویتی هستند؛ لذا، قبل از پرداختن به ساختارهای سریال موجود، روشهای یادگیری جمعی مورد بررسی قرار خواهند گرفت؛ از طرفی اکثر قریب به اتفاق روشهای سریال، متمرکز بر دادههای نامتوازن مانند زمینه تشخیص چهره هستند، بنابراین به علت تکیه این مطالعه بر به کار بستن ساختار جدیدی از دستهبندیکنندههای سریال برای حل مسائل دوکلاسه و چندکلاسهای که لزوما نامتوازن نیستند، لزوم مرور روشهای موفق جمعی تقویتی کاملا آشکار است.
اکثر تحقیقات در زمینه یادگیری ماشین متمرکز بر مسائل دوکلاسه هستند. شماری از تکنیکهای موفق و معروف یادگیری ماشین، نظیر طبقهبندیکنندههای تقویتی[۴۰]، بردارهای پشتیبان[۴۱] [۵] و روش RIPPER [۶] در اصل برای مسائل دوکلاسه طراحی شدهاند [۷]. البته لازم به ذکر است که روش RIPPER با هدف حل مسائل چندکلاسه تعریف شد اما این روش در واقع حاصل ترکیب دو روشREP [8] وIREP [9] میباشد که هر دوی این روشها در حوزهی مسائل دوکلاسه تعریف شدهاند. اما واقعیت این است که بسیاری از مسائل طبقهبندی در دنیای واقعی ابدا دوکلاسه نیستند بلکه متعلق به مسائل چندکلاسه میباشند. احتمال طبقهبندی نادرست در مسائل چندکلاسه بسیار بالاست و این احتمال با بالا رفتن تعداد کلاسها، به سرعت افزایش مییابد [۷]. بنابراین واضح است که رسیدن به دقت بالا، در مسائل چندکلاسه، بسیار مشکلتر از مسائل دوکلاسه است.
[۱] Artificial intelligence
[۲] Machine learning
[۳] Pattern recognition
[۴] Input data
[۵] Unseen data
[۶] Classification
[۷] Regression
[۸] Discrete
[۹] Class label
[۱۰] Continues-valued function
[۱۱] Numerical
[۱۲] Supervised learning
[۱۳] Unsupervised learning
[۱۴] Semi-supervised
[۱۵] Active learning
[۱۶] Testing phase
[۱۷] Clustering
[۱۸] Training set
[۱۹] Feature vector
[۲۰] Classifier
[۲۱] Hypothesis
[۲۲] Decision boundary
[۲۳] Class boundaries
[۲۴] High dimensional
[۲۵] Weak learners
[۲۶] Random guess
[۲۷] Overall accuracy
[۲۸] Base learner
[۲۹] Multiple classifier system
[۳۰] Classifier fusion
[۳۱] Committee of classifiers
[۳۲] Classifier combination
[۳۳] Real number
[۳۴] Posterior probability
[۳۵] Majority vote
[۳۶] Coarse-to-fine learning
[۳۷] Face recognition
[۳۸] Boosting
[۳۹] Parallel Strong classifiers within the same Layer
[۴۰] Modularized
[۴۱] SVM (Support Vector Machine)
تمامی فایل های پیشینه تحقیق و پرسشنامه و مقالات مربوطه به صورت فایل دنلودی می باشند و شما به محض پرداخت آنلاین مبلغ همان لحظه قادر به دریافت فایل خواهید بود. این عملیات کاملاً خودکار بوده و توسط سیستم انجام می پذیرد. جهت پرداخت مبلغ شما به درگاه پرداخت یکی از بانک ها منتقل خواهید شد، برای پرداخت آنلاین از درگاه بانک این بانک ها، حتماً نیاز نیست که شما شماره کارت همان بانک را داشته باشید و بلکه شما میتوانید از طریق همه کارت های عضو شبکه بانکی، مبلغ را پرداخت نمایید.
ارسال نظر