پیشینه تحقیق پیکره موازی و تطبیقی و ارزیابی ترجمه ماشینی دارای ۳۰ صفحه می باشد فایل پیشینه تحقیق به صورت ورد word و قابل ویرایش می باشد. بلافاصله بعد از پرداخت و خرید لینک دنلود فایل نمایش داده می شود و قادر خواهید بود آن را دانلود و دریافت نمایید . ضمناً لینک دانلود فایل همان لحظه به آدرس ایمیل ثبت شده شما ارسال می گردد.
۱-۱-مقدمه ۴
۱-۲-پیکره ۷
۱-۲-۱-پیکره موازی ۷
۱-۲-۲-پیکره تطبیقی ۱۰
۱-۳-همترازی ۱۰
۱-۳-۱-همترازی در سطح سند ۱۱
۱-۳-۲-همترازی در سطح جمله ۱۱
۱-۳-۳-همترازی در سطح کلمه (همترازی لغوی) ۱۳
۱-۴-ارزیابی ترجمه ماشینی ۱۴
۱-۴-۱-بلو ۱۵
۱-۴-۲-متریک NIST ۱۶
۱-۴-۳-نرخ خطای کلمه ۱۶
۱-۴-۵-نرخ خطای ترجمه (TER) ۱۶
۱-۵-مروری بر تحقیقات انجام شده ۱۸
۱-۵-۱-ساخت پیکره موازی از روی متون همترجمه ۱۸
۱-۵-۲-استخراج جملات موازی از وب ۲۰
۱-۵-۳-استخراج جملات موازی از پیکرههای تطبیقی ۲۱
۱-۵-۴-تشخیص جملات موازی با استفاده از طبقهبند آنتروپی بیشینه ۲۳
۱-۵-۵-ساخت پیکره موازی انگلیسی – فارسی ۲۶
۱-۶-فهرست منابع ۲۷
Tripathi and J. K. Sarkhel, “Approaches to machine translation”, Annals of Library and Information Studies, vol. 57, pp. 388-393, December 2010.
Lopez, “statistical machine translation”, ACM Computing Surveys, vol. 40, no. 3, pp. 1-49, 2008.
F. Brown, J. Cocke, S. A. Della-Pietra, V. J. Della-Pietra, F. Jelinek, J. D. Lafferty, R. L. Mercer and P. S. Roossin, “A statistical approach to machine translation”, Comput Linguist, vol. 16, no. 2, pp. 79-85, 1990.
J. Och and H. Ney, “Discriminative training and maximum entropy models for statistical machine translation”, in 40th Annual meeting of the Association for Computational Linguistics, Philadelphia, PA, USA, pp. 295–۳۰۲, ۲۰۰۲٫
Koehn, “Europarl: a parallel corpus for statistical machine translation”, in MT Summit X: the tenth machine translation summit, Phuket, Thailand, pp. 79–۸۶, ۲۰۰۵٫
Mohaghegh, A. Sarrafzadeh and T. Moir, “Improved Language Modeling for English-Persian Statistical Machine Translation”, Proceedings of SSST-4, Fourth Workshop on Syntax and Structure in Statistical Translation (COLING 2010), Beijing, pp. 75–۸۲, August 2010.
Supreme Council of Information and Communication Technology. (2013). Mizan English-Persian Parallel Corpus. Tehran, I.R. Iran. Retrieved from http://dadegan.ir/catalog/mizan.
Mansouri and H. Faili, “State-of-the-art English to Persian Statistical Machine Translation System”, in 16th CSI International Symposium on Artificial Intelligence and Signal Processing, pp. 174-179. IEEE, Fars, 2012.
Ishisaka, K. Yamamoto, M. Utiyama and E. Sumita, “Development of a Japanese-English software manual parallel corpus”, MT Summit XII: proceedings of the twelfth machine translation summit, Ottawa, ON, Canada, pp. 254–۲۵۹, ۲۰۰۹٫
T. Pilevar, A. H. Pilevar and H. Faili, “TEP: Tehran English-Persian Parallel Corpus”, In: Gelbukh, A. (eds.) Computational Linguistics and Intelligent Text Processing. LNCS, vol. 6609, pp. 68-79. Springer, Heidelberg, 2011.
Jabbari, S. Bakhshaei, S. M. Mohammadzadeh Ziabary and S. Khadivi, “Developing an Open-domain English-Farsi Translation System Using AFEC: Amirkabir Bilingual Farsi-English Corpus”, Fourth Workshop on Computational Approaches to Arabic-Script-based Languages( AMTA 2012), San Diego, CA, USA, November 2012.
Nie, M. Simard, P. Isabelle and R. Dur, “Cross-language information retrieval based on parallel texts and automatic mining of parallel texts from the web”, Proceedings of the 22nd annual international ACMSIGIR conference on research and development in information retrieval (SIGIR ’۹۹), Berkeley, CA, pp. 74–۸۱, ۱۹۹۹٫
Resnik and N. A. Smith, “The web as a parallel corpus”, Comput Linguist, vol. 29, no. 3, pp. 349-380, 2003.
Zhang, K. Wu, J. Gao, and P. Vines, “Automatic acquisition of Chinese-English parallel corpus from the Web”, Proceedings of 28th European Conference on Information Retrieval, pages 420–۴۳۱٫ Lecture Notes in Computer Science, Vol. 3936, Springer, January 2006.
W. Oard, “Alternative approaches for cross-language text retrieval”, In AAAI symposium on cross-Language text and speech retrieval, Stanford, CA, USA, pp. 154–۱۶۲, ۱۹۹۷٫
Tiedemann, “Parallel Data, Tools and Interfaces in OPUS”, In Proceedings of the 8th International Conference on Language Resources
and Evaluation (LREC’2012), 2012.
Zajac, S. Helmreich and K. Megerdoomian, “Black-Box/Glass-Box Evaluation in Shiraz”, Workshop on Machine Translation Evaluation at LREC-2000, Athens, Greece, 2000.
در طول چند قرن گذشته، ماشینها در بسیاری از کارهای انسان به کار گرفته شدهاند، و اخیرا با ظهور کامپیوترهای دیجیتالی حتی کارهایی که نیاز به فکر و هوش دارند توسط ماشینها انجام میشود. ترجمه بین زبانها نیز یکی از این کارهاست، کاری که حتی انسانها هم برای انجام آن نیاز به آموزشهای ویژه دارند.
ترجمه ماشینی سابقه بسیار طولانی دارد، اما در یکی دو دهه اخیر تحولش در مسیر جدیدی صورت گرفت- مسیری که در دیگر رشتههای وابسته به پردازش زبانهای طبیعی منعکس شده است. این مسیر جدید بر این فرض مبتنی است که زبان بسیار غنی و پیچیده است، در نتیجه هیچ گاه نمی توان زبان را به طور کامل در قالب مجموعهای از قوانین -که بصورت یک برنامه کامپیوتری کد شده در میآید- خلاصه کرده و تجزیه و تحلیل کرد. در عوض، مسیر جدید در جهت توسعه یک ماشین است که قوانین ترجمه را به طور خودکار از یک پیکره بزرگ از متون ترجمه شده کشف میکند، و این کار را با جفت کردن ورودی و خروجی فرآیند ترجمه و با یادگیری از روی آمارهای مربوط به دادهها انجام میدهد.
ترجمه ماشینی آماری شتاب فوق العادهای را هم در جامعه پژوهشی و هم در بخش تجاری به دست آورده است. نزدیک به یک هزار مقاله آکادمیک بر روی این موضوع منتشر شده است که حدود نیمی از آن تنها مربوط به سه سال گذشته است. در همین زمان، سیستمهای ترجمه ماشینی آماری راهشان را در بازار کار پیدا کردهاند، از زبان ویور، اولین شرکت ترجمه آماری محض گرفته تا سیستمهای آنلاین آزاد گوگل و مایکروسافت.
مرز دانش در ترجمه ماشینی برپایه رویکردهای آماری است که یک فرآیند داده محور است. در نگاه به ترجمه به عنوان یک مسئله یادگیری ماشین، الگوریتم ترجمه ماشینی آماری قوانین ترجمه را از متون ترجمه شده قبلی یاد میگیرد [۲]. بنابراین کارآیی سیستم به شدت به کیفیت و کمیت پیکره مورد استفاده برای یادگیری بستگی دارد. عموما، متنهای دوزبانه بزرگتر منجر به کارآیی بیشتر میشوند. سیستمهای ترجمه ماشینی آماری از متنهای دوزبانه موازی برای مدل ترجمه و از پیکرههای تک زبانه برای مدل کردن زبان مقصد به عنوان مواد آموزشی استفاده میکنند. برخلاف اینکه دادههای تک زبانه کافی برای اکثر زبانها وجود دارد، دادههای موازی بسیار کمیاب هستند.
ثابت شده است که پیکره متنی، یک منبع ضروری برای ترجمه ماشینی آماری است [۳,۴] همانطور که برای دیگر برنامههای کاربردی پردازش زبانهای طبیعی از جمله برای ساخت و توسعه واژهنامههای دوزبانه و مجموعه اصطلاحات دوزبانه ضروری میباشد. با این حال غیر از تعداد کمی از زبانها مانند فرانسوی-انگلیسی، انگلیسی-عربی و انگلیسی-چینی و زمینههای معدودی از جمله مذاکرات پارلمانی و متون حقوقی، مانند شرح مذاکرات مجلس کانادا یا اروپا [۵]، و یا سازمان ملل متحد، منابع کمی باقی میماند، که اغلب به دلیل هزینههای انسانی و مالی است که برای تولیدشان نیاز است. بعلاوه اصطلاحات مخصوص صنفی به کاررفته در اینگونه پیکرهها برای ترجمههای روزمره و یا ترجمه در دیگر زمینهها مناسب نیستند؛ بنابراین نیاز شدیدی برای پیکرههای موازی بیشتر که مناسب ترجمههای منطبق بر دامنه هستند احساس میشود.
پیکره موازی برای ترجمه ماشینی باید در اندازه بسیار زیاد باشد – بیلیونها جمله – تا بتواند موثر باشد. و به همین دلیل است که در زبان فارسی با مشکل روبه رو هستیم. به دلیل کمبود شدید مواد زبانی ذخیره شده بصورت دیجیتال و مستندات موازی برخط، ساخت پیکره موازی فارسی بسیار سخت است [۶].
همانطور که گفته شد ترجمه ماشینی آماری رایجترین رویکرد ترجمه ماشینی در حال حاضر است. از طرفی پیکرههای موازی اصلیترین منابع برای ترجمه ماشینی آماری هستند، اما این در حالی است که اکثریت زبانهای طبیعی با کمبود این منابع مهم روبهرو هستند. از اینرو تلاش برای ساخت پیکرههای موازی جهت بهبود ترجمه ماشینی ضروری به نظر میرسد.
یک راه برای غلبه بر این کمبود منابع، تولید ترجمههای انسانی بیشتر است، اما این یک گزینه بسیار پرهزینه است، هم از نظر زمان و هم از نظر مالی؛ اما با این حال به دلیل اهمیت بسیار زیاد پیکرههای موازی برای ترجمه ماشینی برخی از پیکرههای موازی از این طریق ساخته شدهاند [۷]. راه دیگر استفاده از متون از قبل ترجمه شده است از جمله کتابهای ترجمه شده الکترونیکی [۸] و یا کتابچههای راهنمای چندزبانه الکترونیکی [۹]، اما تعداد اینگونه منابع الکترونیکی به خصوص برای زبان فارسی بسیار کم است. گزارشات پارلمانی و متون حقوقی مانند شرح مذاکرات پارلمانی سازمان ملل متحد، اروپا و کانادا نیز از اصلیترین نوع منابع از قبل ترجمه شده برای تولید پیکرههای موازی محسوب میشوند که زبان فارسی فاقد این گونه منابع است. در برخی تلاشها جهت ساخت پیکره موازی از زیرنویس فیلمها استفاده شده است [۱۰][۱۱] اما به دلیل اینکه زیرنویس فیلمها به زبان محاورهای هستند، پیکرههای ساخته شده از آنها نویزی بوده و در همه زمینهها قابل استفاده نیستند. وب نیز میتواند برای بدست آوردن جملات موازی پیمایش شود [۹,۱۲,۱۳,۱۴]، اگرچه اکثر متون دوزبانه یافت شده اغلب ترجمه دقیق هم نیستند و بنابراین همترازی آنها آسان نیست.
در کارهای اخیر، روشهای کم هزینهتر اما پربارتری برای تولید اینگونه پیکرههای دوزبانه همتراز شده در سطح جمله ارائه شده است، که بر پایه استخراج متون موازی از متون ” تقریبا موازی” و یا “نه خیلی موازی” میباشند که اینگونه متون اغلب در دسترس هستند و اصطلاح “پیکره تطبیقی” برای آنها به کار میرود.
یک پیکره تطبیقی مجموعهای از متنهاست که به طور جداگانه در زبانهای مربوطه ساخته شدهاند و بر پایه شباهت محتوی ترکیب شدهاند. اینها مستنداتی از یک به چند زبان هستند که از نظر شکل و محتوی در ابعاد و درجات مختلف قابل مقایسه هستند. بر عکس، یک پیکره موازی شامل متنهای دو یا چند زبانه است که ترجمه دقیق همدیگر بوده و در سطح جمله همتراز شدهاند.
مواد اولیه برای مستندات تطبیقی اغلب آسان بدست میآید، اما همترازی تک تک مستندات یک کار چالش بر انگیز است[۱۵]. منابع بالقوه برای پیکرههای تطبیقی، آژانسهای خبری چندزبانه مانند AFP و BBC و …، و یا دایره المعارفهای چندزبانه مانند ویکی پدیا و Encarta هستند. برخی از این پیکرههای تطبیقی به طور گسترده از طریق LDC در دسترس هستند. اینگونه منابع اغلب شامل جملاتی هستند که ترجمههای مناسبی از یکدیگرند. شناسایی مطمئن این جفت جملهها، ساخت خودکار پیکرههای موازی گوناگون را ممکن میسازد.
پیکره، مجموعهای است از مواد متنی یا گفتاری که بر اساس مجموعه مشخصی از معیارهای از پیش تعیین شده گردآوری شده است. پیکره قابل خوانش توسط ماشین است به عبارتی دیگر دیجیتالی است، دامنه مشخصی دارد و محدود (دارای نهایت) است. پیکره برای پژوهشهای زبانی مورد استفاده قرار میگیرد. از آنجایی که در این پژوهش کاربردهای متنی ترجمه ماشینی مدنظر است، منظور از پیکره، پیکره متنی میباشد؛ اما از این پس جهت سهولت تنها از لفظ پیکره به جای پیکره متنی استفاده میکنیم.
پیکره مجموعهای نظاممند از متون است. منظور از «نظاممند» بودن این است که ساختار و محتوای پیکره از اصول نمونه گیری معینی پیروی میکنند؛ یعنی اصولی که تعیین میکند پیکره شامل چه متنهایی باشد. همچنین نظاممند بودن به این معنی است که اطلاعات پیکره در ترکیب درست و مشخصی در دسترس پژوهشگران قرار میگیرد.
به منظور استفاده بهتر از پیکره در حوزه پردازش زبانهای طبیعی، یک پیکره میتواند حاشیه نویسی شده باشد. حاشیه نویسی یعنی افزودن برخی اطلاعات به پیکره، مانند اطلاعات در مورد نقش کلمات، ریشه کلمات، ساختار یا تجزیه نحوی جملات و … . برخی پیکرهها کاملا تجزیه شده و حاشیه گذاری میشوند که به این نوع پیکرهها بانک درختی گفته میشود.
[۱] Corpus
تمامی فایل های پیشینه تحقیق و پرسشنامه و مقالات مربوطه به صورت فایل دنلودی می باشند و شما به محض پرداخت آنلاین مبلغ همان لحظه قادر به دریافت فایل خواهید بود. این عملیات کاملاً خودکار بوده و توسط سیستم انجام می پذیرد. جهت پرداخت مبلغ شما به درگاه پرداخت یکی از بانک ها منتقل خواهید شد، برای پرداخت آنلاین از درگاه بانک این بانک ها، حتماً نیاز نیست که شما شماره کارت همان بانک را داشته باشید و بلکه شما میتوانید از طریق همه کارت های عضو شبکه بانکی، مبلغ را پرداخت نمایید.
ارسال نظر