تحقیق پیکره موازی و تطبیقی و ارزیابی ترجمه ماشینی

پیشینه تحقیق و پایان نامه و پروژه دانشجویی

پیشینه تحقیق پیکره موازی و تطبیقی و ارزیابی ترجمه ماشینی دارای ۳۰ صفحه می باشد فایل پیشینه تحقیق به صورت ورد  word و قابل ویرایش می باشد. بلافاصله بعد از پرداخت و خرید لینک دنلود فایل نمایش داده می شود و قادر خواهید بود  آن را دانلود و دریافت نمایید . ضمناً لینک دانلود فایل همان لحظه به آدرس ایمیل ثبت شده شما ارسال می گردد.

فهرست مطالب

۱-۱-مقدمه    ۴
۱-۲-پیکره    ۷
۱-۲-۱-پیکره موازی    ۷
۱-۲-۲-پیکره تطبیقی    ۱۰
۱-۳-همترازی    ۱۰
۱-۳-۱-همترازی در سطح سند    ۱۱
۱-۳-۲-همترازی در سطح جمله    ۱۱
۱-۳-۳-همترازی در سطح کلمه (همترازی لغوی)    ۱۳
۱-۴-ارزیابی ترجمه ماشینی    ۱۴
۱-۴-۱-بلو    ۱۵
۱-۴-۲-متریک NIST    ۱۶
۱-۴-۳-نرخ خطای کلمه    ۱۶
۱-۴-۵-نرخ خطای ترجمه (TER)    ۱۶
۱-۵-مروری بر تحقیقات انجام شده    ۱۸
۱-۵-۱-ساخت پیکره موازی از روی متون هم‌ترجمه    ۱۸
۱-۵-۲-استخراج جملات موازی از وب    ۲۰
۱-۵-۳-استخراج جملات موازی از پیکره‌های تطبیقی    ۲۱
۱-۵-۴-تشخیص جملات موازی با استفاده از طبقه‌بند آنتروپی بیشینه    ۲۳
۱-۵-۵-ساخت پیکره موازی انگلیسی – فارسی    ۲۶
۱-۶-فهرست منابع    ۲۷

منابع

Tripathi and J. K. Sarkhel, “Approaches to machine translation”, Annals of Library and Information Studies, vol. 57, pp. 388-393, December 2010.

Lopez, “statistical machine translation”, ACM Computing Surveys, vol. 40, no. 3, pp. 1-49, 2008.

F. Brown, J. Cocke, S. A. Della-Pietra, V. J. Della-Pietra, F. Jelinek, J. D. Lafferty, R. L. Mercer and P. S. Roossin, “A statistical approach to machine translation”, Comput Linguist, vol. 16, no. 2, pp. 79-85, 1990.

J. Och and H. Ney, “Discriminative training and maximum entropy models for statistical machine translation”, in 40th Annual meeting of the Association for Computational Linguistics, Philadelphia, PA, USA, pp. 295–۳۰۲, ۲۰۰۲٫

Koehn, “Europarl: a parallel corpus for statistical machine translation”, in MT Summit X: the tenth machine translation summit, Phuket, Thailand, pp. 79–۸۶, ۲۰۰۵٫

Mohaghegh, A. Sarrafzadeh and T. Moir, “Improved Language Modeling for English-Persian Statistical Machine Translation”, Proceedings of SSST-4, Fourth Workshop on Syntax and Structure in Statistical Translation (COLING 2010), Beijing, pp. 75–۸۲, August 2010.

Supreme Council of Information and Communication Technology. (2013). Mizan English-Persian Parallel Corpus. Tehran, I.R. Iran. Retrieved from http://dadegan.ir/catalog/mizan.

Mansouri and H. Faili, “State-of-the-art English to Persian Statistical Machine Translation System”, in 16th CSI International Symposium on Artificial Intelligence and Signal Processing, pp. 174-179. IEEE, Fars, 2012.

Ishisaka, K. Yamamoto, M. Utiyama and E. Sumita, “Development of a Japanese-English software manual parallel corpus”, MT Summit XII: proceedings of the twelfth machine translation summit, Ottawa, ON, Canada, pp. 254–۲۵۹, ۲۰۰۹٫

T. Pilevar, A. H. Pilevar and H. Faili, “TEP: Tehran English-Persian Parallel Corpus”, In: Gelbukh, A. (eds.) Computational Linguistics and Intelligent Text Processing. LNCS, vol. 6609, pp. 68-79. Springer, Heidelberg, 2011.

Jabbari, S. Bakhshaei, S. M. Mohammadzadeh Ziabary and S. Khadivi, “Developing an Open-domain English-Farsi Translation System Using AFEC: Amirkabir Bilingual Farsi-English Corpus”, Fourth Workshop on Computational Approaches to Arabic-Script-based Languages( AMTA 2012), San Diego, CA, USA, November 2012.

Nie, M. Simard, P. Isabelle and R. Dur, “Cross-language information retrieval based on parallel texts and automatic mining of parallel texts from the web”, Proceedings of the 22nd annual international ACMSIGIR conference on research and development in information retrieval (SIGIR ’۹۹), Berkeley, CA, pp. 74–۸۱, ۱۹۹۹٫

Resnik and N. A. Smith, “The web as a parallel corpus”, Comput Linguist, vol. 29, no. 3, pp. 349-380, 2003.

Zhang, K. Wu, J. Gao, and P. Vines, “Automatic acquisition of Chinese-English parallel corpus from the Web”, Proceedings of 28th European Conference on Information Retrieval, pages 420–۴۳۱٫ Lecture Notes in Computer Science, Vol. 3936, Springer, January 2006.

W. Oard, “Alternative approaches for cross-language text retrieval”, In AAAI symposium on cross-Language text and speech retrieval, Stanford, CA, USA, pp. 154–۱۶۲, ۱۹۹۷٫

Tiedemann, “Parallel Data, Tools and Interfaces in OPUS”, In Proceedings of the 8th International Conference on Language Resources

and Evaluation (LREC’2012), 2012.

Zajac, S. Helmreich and K. Megerdoomian, “Black-Box/Glass-Box Evaluation in Shiraz”, Workshop on Machine Translation Evaluation at LREC-2000, Athens, Greece, 2000.

۱-۱-مقدمه

در طول چند قرن گذشته، ماشین‌ها در بسیاری از کارهای انسان به کار گرفته شده‌اند، و اخیرا با ظهور کامپیوترهای دیجیتالی حتی کارهایی که نیاز به فکر و هوش دارند توسط ماشین‌ها انجام می‌شود. ترجمه بین زبان‌ها نیز یکی از این کارهاست، کاری که حتی انسان‌ها هم برای انجام آن نیاز به آموزش‌های ویژه دارند.

ترجمه ماشینی سابقه بسیار طولانی دارد، اما در یکی دو دهه اخیر تحولش در مسیر جدیدی صورت گرفت- مسیری که در دیگر رشته‌های وابسته به پردازش زبان‌های طبیعی منعکس شده است. این مسیر جدید بر این فرض مبتنی است که زبان بسیار غنی و پیچیده است، در نتیجه هیچ گاه نمی توان زبان را به طور کامل در قالب مجموعه‌ای از قوانین -که بصورت یک برنامه کامپیوتری کد شده در می‌آید- خلاصه کرده و تجزیه و تحلیل کرد. در عوض، مسیر جدید در جهت توسعه یک ماشین است که قوانین ترجمه را به طور خودکار از یک پیکره بزرگ از متون ترجمه شده کشف می‌کند، و این کار را با جفت کردن ورودی و خروجی فرآیند ترجمه و با یادگیری از روی آمارهای مربوط به داده‌ها انجام می‌دهد.

ترجمه ماشینی آماری شتاب فوق العاده‌ای را هم در جامعه پژوهشی و هم در بخش تجاری به دست آورده است. نزدیک به یک هزار مقاله آکادمیک بر روی این موضوع منتشر شده است که حدود نیمی از آن تنها مربوط به سه سال گذشته است. در همین زمان، سیستم‌های ترجمه ماشینی آماری راهشان را در بازار کار پیدا کرده‌اند، از زبان ویور، اولین شرکت ترجمه آماری محض گرفته تا سیستم‌های آنلاین آزاد گوگل و مایکروسافت.

مرز دانش در ترجمه ماشینی برپایه رویکردهای آماری است که یک فرآیند داده محور است. در نگاه به ترجمه به عنوان یک مسئله یادگیری ماشین، الگوریتم ترجمه ماشینی آماری قوانین ترجمه را از متون ترجمه شده قبلی یاد می‌گیرد [۲]. بنابراین کارآیی سیستم به شدت به کیفیت و کمیت پیکره مورد استفاده برای یادگیری بستگی دارد. عموما، متن‌های دوزبانه بزرگ‌تر منجر به کارآیی بیشتر می‌شوند. سیستم‌های ترجمه ماشینی آماری از متن‌های دوزبانه موازی برای مدل ترجمه و از پیکره‌های تک زبانه برای مدل کردن زبان مقصد به عنوان مواد آموزشی استفاده می‌کنند. برخلاف اینکه داده‌های تک زبانه کافی برای اکثر زبان‌ها وجود دارد، داده‌های موازی بسیار کمیاب هستند.

ثابت شده است که پیکره متنی، یک منبع ضروری برای ترجمه ماشینی آماری است [۳,۴] همانطور که برای دیگر برنامه‌های کاربردی پردازش زبان‌های طبیعی از جمله برای ساخت و توسعه واژه‌نامه‌های دوزبانه و مجموعه اصطلاحات دوزبانه ضروری می‌باشد. با این حال غیر از تعداد کمی از زبان‌ها مانند فرانسوی-انگلیسی، انگلیسی-عربی و انگلیسی-چینی و زمینه‌های معدودی از جمله مذاکرات پارلمانی و متون حقوقی، مانند شرح مذاکرات مجلس کانادا یا اروپا [۵]، و یا سازمان ملل متحد، منابع کمی باقی می‌ماند، که اغلب به دلیل هزینه‌های انسانی و مالی است که برای تولیدشان نیاز است. بعلاوه اصطلاحات مخصوص صنفی به کاررفته در اینگونه پیکره‌ها برای ترجمه‌های روزمره و یا ترجمه در دیگر زمینه‌ها مناسب نیستند؛ بنابراین نیاز شدیدی برای پیکره‌های موازی بیشتر که مناسب ترجمه‌های منطبق بر دامنه هستند احساس می‌شود.

پیکره موازی برای ترجمه ماشینی باید در اندازه بسیار زیاد باشد – بیلیون‌ها جمله – تا بتواند موثر باشد. و به همین دلیل است که در زبان فارسی با مشکل روبه رو هستیم. به دلیل کمبود شدید مواد زبانی ذخیره شده بصورت دیجیتال و مستندات موازی برخط، ساخت پیکره موازی فارسی بسیار سخت است [۶].

همانطور که گفته شد ترجمه ماشینی آماری رایج‌ترین رویکرد ترجمه ماشینی در حال حاضر است. از طرفی پیکره‌های موازی اصلی‌ترین منابع برای ترجمه ماشینی آماری هستند، اما این در حالی است که اکثریت زبان‌های طبیعی با کمبود این منابع مهم روبه‌رو هستند. از اینرو تلاش برای ساخت پیکره‌های موازی جهت بهبود ترجمه ماشینی ضروری به نظر می‌رسد.

یک راه برای غلبه بر این کمبود منابع، تولید ترجمه‌های انسانی بیشتر است، اما این یک گزینه بسیار پرهزینه است، هم از نظر زمان و هم از نظر مالی؛ اما با این حال به دلیل اهمیت بسیار زیاد پیکره‌های موازی برای ترجمه ماشینی برخی از پیکره‌های موازی از این طریق ساخته شده‌اند [۷]. راه دیگر استفاده از متون از قبل ترجمه شده است از جمله کتاب‌های ترجمه شده الکترونیکی [۸] و یا کتابچه‌های راهنمای چندزبانه الکترونیکی [۹]، اما تعداد اینگونه منابع الکترونیکی به خصوص برای زبان فارسی بسیار کم است. گزارشات پارلمانی و متون حقوقی مانند شرح مذاکرات پارلمانی سازمان ملل متحد، اروپا و کانادا نیز از اصلی‌ترین نوع منابع از قبل ترجمه شده برای تولید پیکره‌های موازی محسوب می‌شوند که زبان فارسی فاقد این گونه منابع است. در برخی تلاش‌ها جهت ساخت پیکره موازی از زیرنویس فیلم‌ها استفاده شده است [۱۰][۱۱] اما به دلیل اینکه زیرنویس فیلم‌ها به زبان محاوره‌ای هستند، پیکره‌های ساخته شده از آنها نویزی بوده و در همه زمینه‌ها قابل استفاده نیستند. وب نیز می‌تواند برای بدست آوردن جملات موازی پیمایش شود [۹,۱۲,۱۳,۱۴]، اگرچه اکثر متون دوزبانه یافت شده اغلب ترجمه دقیق هم نیستند و بنابراین  همترازی آنها آسان نیست.

در کارهای اخیر، روش‌های کم هزینه‌تر اما پربارتری برای تولید اینگونه پیکره‌های دوزبانه  همتراز شده در سطح جمله ارائه شده است، که بر پایه استخراج متون موازی از متون ” تقریبا موازی” و یا “نه خیلی موازی” می‌باشند که اینگونه متون اغلب در دسترس هستند و اصطلاح “پیکره تطبیقی” برای آنها به کار می‌رود.

یک پیکره تطبیقی مجموعه‌ای از متن‌هاست که به طور جداگانه در زبان‌های مربوطه ساخته شده‌اند و بر پایه شباهت محتوی ترکیب شده‌اند. این‌ها مستنداتی از یک به چند زبان هستند که از نظر شکل و محتوی در ابعاد و درجات مختلف قابل مقایسه هستند. بر عکس، یک پیکره موازی شامل متن‌های دو یا چند زبانه است که ترجمه دقیق همدیگر بوده و در سطح جمله  همتراز شده‌اند.

مواد اولیه برای مستندات تطبیقی اغلب آسان بدست می‌آید، اما همترازی تک تک مستندات یک کار چالش بر انگیز است[۱۵]. منابع بالقوه برای پیکره‌های تطبیقی، آژانس‌های خبری چندزبانه مانند AFP و BBC و …، و یا دایره المعارف‌های چندزبانه مانند ویکی پدیا و Encarta هستند. برخی از این پیکره‌های تطبیقی به طور گسترده از طریق LDC در دسترس هستند. اینگونه منابع اغلب شامل جملاتی هستند که ترجمه‌های مناسبی از یکدیگرند. شناسایی مطمئن این جفت جمله‌ها، ساخت خودکار پیکره‌های موازی گوناگون را ممکن می‌سازد.

۱-۲-پیکره[۱]

پیکره، مجموعه‌ای است از مواد متنی یا گفتاری که بر اساس مجموعه مشخصی از معیارهای از پیش تعیین شده گردآوری شده است. پیکره قابل خوانش توسط ماشین است به عبارتی دیگر دیجیتالی است، دامنه مشخصی دارد و محدود (دارای نهایت) است. پیکره برای پژوهش‌های زبانی مورد استفاده قرار می‌گیرد. از آنجایی که در این پژوهش کاربردهای متنی ترجمه ماشینی مدنظر است، منظور از پیکره، پیکره متنی می‌باشد؛ اما از این پس جهت سهولت تنها از لفظ پیکره به جای پیکره متنی استفاده می‌کنیم.

پیکره مجموعه‌ای نظام‌مند از متون است. منظور از «نظام‌مند» بودن این است که ساختار و محتوای پیکره از اصول نمونه گیری معینی پیروی می‌کنند؛ یعنی اصولی که تعیین می‌کند پیکره شامل چه متن‌هایی باشد. همچنین نظام‌مند بودن به این معنی است که اطلاعات پیکره در ترکیب درست و مشخصی در دسترس پژوهشگران قرار می‌گیرد.

به منظور استفاده بهتر از پیکره در حوزه پردازش زبان‌های طبیعی، یک پیکره می‌تواند حاشیه نویسی شده باشد. حاشیه نویسی یعنی افزودن برخی اطلاعات به پیکره، مانند اطلاعات در مورد نقش کلمات، ریشه کلمات، ساختار یا تجزیه نحوی جملات و … . برخی پیکره‌ها کاملا تجزیه شده و حاشیه گذاری می‌شوند که به این نوع پیکره‌ها بانک درختی گفته می‌شود.

[۱] Corpus

50,000 ریال – خرید

تمامی فایل های پیشینه تحقیق و پرسشنامه و مقالات مربوطه به صورت فایل دنلودی می باشند و شما به محض پرداخت آنلاین مبلغ همان لحظه قادر به دریافت فایل خواهید بود. این عملیات کاملاً خودکار بوده و توسط سیستم انجام می پذیرد. جهت پرداخت مبلغ شما به درگاه پرداخت یکی از بانک ها منتقل خواهید شد، برای پرداخت آنلاین از درگاه بانک این بانک ها، حتماً نیاز نیست که شما شماره کارت همان بانک را داشته باشید و بلکه شما میتوانید از طریق همه کارت های عضو شبکه بانکی، مبلغ  را پرداخت نمایید.

مطالب پیشنهادی:
برچسب ها : , , , , , , , , , , ,
برای ثبت نظر خود کلیک کنید ...

به راهنمایی نیاز دارید؟ کلیک کنید

جستجو پیشرفته

دسته‌ها

آخرین بروز رسانی

    پنج شنبه, ۶ اردیبهشت , ۱۴۰۳
اولین پایگاه اینترنتی اشتراک و فروش فایلهای دیجیتال ایران
wpdesign Group طراحی و پشتیبانی سایت توسط digitaliran.ir صورت گرفته است
تمامی حقوق برایpayandaneshjo.irمحفوظ می باشد.