849 views
پیشینه تحقیق تکنیک های طبقه بندی داده کاوی و مروری بر تحقیقات شناسایی الگوهای طراحی از کد منبع دارای ۱۵ صفحه می باشد فایل پیشینه تحقیق به صورت ورد word و قابل ویرایش می باشد. بلافاصله بعد از پرداخت و خرید لینک دنلود فایل نمایش داده می شود و قادر خواهید بود آن را دانلود و دریافت نمایید . ضمناً لینک دانلود فایل همان لحظه به آدرس ایمیل ثبت شده شما ارسال می گردد.
۲-۱-مقدمه ۴
۲-۲- تکنیک های طبقه بندی ۴
۲-۲-۱- طبقه بند C5.0 ۵
۲-۲-۲- طبقه بند SVM ۵
۲-۲-۳- طبقه بند BOOSTED C5.0 ۵
۲-۴-معیارهای ارزیابی کارایی ۵
۲-۵-مروری بر تحقیقات پیشین ۸
کارهای مرتبط ۸
فهرست منابع و مآخذ ۱۴
[] Z. Balanyi and R. Ferenc. Mining Design Patterns from C++ Source Code. In Proceedings of the 19th International Conference on Software Maintenance (ICSM 2003), pages 305–۳۱۴٫ IEEE Computer Society, Sept. 2003.
[] R. Ferenc, ´A. Besz´edes, L. Fulop, and J. Lele. Design pattern mining enhanced by machine learning. In ICSM, pages 295–۳۰۴, ۲۰۰۵٫
[] N. Shi and R. A. Olsson, “Reverse engineering of design patterns from java source code,” in ASE’۰۶٫ Washington, USA: IEEE Computer Society, 2006, pp. 123–۱۳۴٫
[] N. Tsantalis, A. Chatzigeorgiou, G. Stephanides, and S. T. Halkidis, “Design pattern detection using similarity scoring,” IEEE TSE, vol. 32, no. 11, pp. 896–۹۰۹, ۲۰۰۶٫
[] G. Antoniol, R. Fiutem, and L. Cristoforetti. Using Metrics to Identify Design Patterns in Object-Oriented Software. In Proceedings of the Fifth International Symposium on Software Metrics (METRICS98), pages 23–۳۴٫ IEEE Computer Society, Nov. 1998.
[] M. Zanoni. MARPLE: discovering structured groups of classes for design pattern detection. Master’s thesis, Università degli studi di Milano-Bicocca, Milano, Italy, July 2008.
[] M. Zanoni. Data mining techniques for design pattern detection. PhD’s thesis, Università degli Studi di Milano Bicocca, ۲۰۱۲٫
[] S. Uchiyama, H. Washizaki, Y. Fukazawa and A. Kubo, Design Pattern Detection using Software Metrics and Machine Learning.
[]A. Binun and G. Kniesel. Joining Forces for Higher Precision and Recall of Design Pattern Detection, in proceeding of the 16th conference on software maintenance and reengineering (CSMR2012), March 27-30, Washington, DC, USA, 2012. IEEE Computer society.
[] Clementine 12, copyright(c) integral solutions ltd, help-modeling nodes, (1994-2007)
[] J. Han, M. Kamber and J. Pei, Data Mining third edition: concepts and techniques, M. Kaufmann pub, 2011.
[] S. Alhusain, S. Coupland, R. John AND M. Kavanagh. Towards Machine Learning Based Design Pattern Recognition. Computational intellingent, (UKCI) 2013.
[] Y. Freund AND R.E. Schapire. A Short Introduction to Boosting, Proc. Journal of Japanese Society for Artificial Intelligence, 14(5):771-780, September, 1999.
دراین مقاله مختصری بروی مفاهیم و تعاریف اولیه روشهای داده کاوی و معیارهای ارزیابی مدلهای پیش بینی کننده خواهیم داشت.
در دادهکاوی با دو مجموعه داده مواجه هستیم، داده آموزشی و داده آزمایشی. صفات داده آموزشی را مجموعه معیارهایی تشکیل میدهند که هویت موجودیتهای قرارگرفته دررکوردها را پیشگویی میکنند. موجودیتهای دادهی آموزشی، مشاهداتی هستند که از قبل هویتشان شناسایی شده است. دادهی آموزشی حاوی یک ستون پیشگویی است. مقادیر این ستون، با برچسبهایی پر میشوند که هویت اصلی موجودیتها را نشان میدهد (مثلا درست یا غلط). داده آزمایشی حاوی مشاهداتی است که هویت اصلیشان شناخته شده نیست. با تجزیه و تحلیلی که به واسطه الگوریتمهای دادهکاوی روی دادهی آموزشی صورت میگیرد مدلهایی ساخته میشود. مدلسازی، دانش موجود در مشاهدات داده آموزشی را در قالب یک سری قوانین استخراج میکند. داده آزمایشی برای ارزیابی دقت پیشگویی مدل ساخته شده روی داده آموزشی بکار برده میشود. در واقع پیشگویی یک فرایند دو مرحلهای دارد، فاز یادگیری و فاز دستهبندی.
در فاز یادگیری بر اساس مجموعه دادهی آموزشی، مدل طبقهبند ساخته میشود و در فاز طبقهبندی بر اساس مدل ساخته شده در فاز قبل، مجموعه داده جدید که در فاز یادگیری استفاده نشده است (مجموعه داده آزمایشی) دستهبندی میشود (پیشگویی میشود که مشاهدات جدید چه برچسبی به خود بگیرند). جهت خودکار سازی عملگر تصحیح برچسب در این تحقیق، از روشهای داده کاوی (الگوریتمهای طبقه بندی) استفاده شده است [۱۷].
دقت مدل، درصد نمونه هایی از مجموعه داده آزمایش است که به درستی طبقه بندی شدهاند. مجموعه داده لازم جهت ساخت مدل طبقه بندی، از متغیرهای مستقل و وابسته تشکیل شده است. متغیرهای مستقل همان خصیصه ها هستند که جهت طبقه بندی متغیر وابسته که در واقع بر چسب کلاسها می باشد، مورد استفاده قرار میگیرند [۱۷]. توضیح مختصری در مورد انواع طبقه بندیهایی که در این تحقیق مورد استفاده قرار گرفته اند در ادامه آمده است.
این طبقه بند در واقع براساس تقسیم مبتنی بر نمونه روی فیلدی که بیشترین سود اطلاعاتی را با خود دارد، کار میکند. سپس هر زیرنمونه تعریف شده با اولین تقسیم، دوباره تقسیم میشود (معمولا بر اساس یک فیلد متفاوت). این فرایند تکرار میشود تا اینکه هیچ زیرنمونه قابل تقسیم نداشته باشیم. سرانجام پایین ترین سطح تقسیم ها دوباره بررسی می شوند. آنهایی که تاثیر قابل توجهی بر مقدار مدل ندارند حذف یا هرس میشوند [۱۶].
یک طبقه بند و الگوریتم رگرسیون است که از تئوری یادگیری ماشین با حداکثر دقت پیش بینی بدون” اُور فیتینگ[۲] ” داده ها استفاده میکند. این روش از یک تبدیل غیر خطی بر داده های یادگیری استفاده میکند، و با جستجوی برای تساوی های رگرسیون در دادههای تبدیل شده کلاسها (اهداف) را جدا میکنند.SVM خصوصا برای آنالیز دادهها با تعداد زیادی از فیلدهای پیش گویی کننده مناسب میباشد [۱۶].
یک الگوریتم داده کاوی است که برای کاهش خطای الگوریتمهای یادگیری ضعیف (به آرامی به سمت طبقه بندی صحیح میل میکنند) مورد استفاده قرار میگیرد و آنها را به یک الگوریتم یادگیری قوی تبدیل میکند. در این کار برای قدرت بیشتر بخشیدن به الگوریتم تصمیم گیری C5.0 استفاده شده است [۲۷].
[۱] classification
[۲] Over fitting generally occurs when a model is excessively complex, such as having too many parameters relative to the number of observations.
[۳] Confusion matrix
تمامی فایل های پیشینه تحقیق و پرسشنامه و مقالات مربوطه به صورت فایل دنلودی می باشند و شما به محض پرداخت آنلاین مبلغ همان لحظه قادر به دریافت فایل خواهید بود. این عملیات کاملاً خودکار بوده و توسط سیستم انجام می پذیرد. جهت پرداخت مبلغ شما به درگاه پرداخت یکی از بانک ها منتقل خواهید شد، برای پرداخت آنلاین از درگاه بانک این بانک ها، حتماً نیاز نیست که شما شماره کارت همان بانک را داشته باشید و بلکه شما میتوانید از طریق همه کارت های عضو شبکه بانکی، مبلغ را پرداخت نمایید.
ارسال نظر