تابعنا
الرئيسية / مقالات


مشاركة المقال عبر



الترجمة الآلية بمقاربة إحصائية: تحديات وآفاق لحوسبة اللغة العربية

وفاء بن تركي، أستاذة سابقة بالمعهد العالي العربي للترجمة

د. ناصر الدين سمار، أستاذ زائر بالمعهد العالي العربي للترجمة

منذ اختراع أول حاسوب، سعى خبراء الذكاء الاصطناعي إلى تكريس القدرات الفائقة للحاسوب لمعالجة اللغات الطبيعية آليا من خلال محاكاة القدرات الإدراكية البشرية لاكتساب ومعالجة وصياغة اللغة الطبيعية.

وتمثل الترجمة الآلية الاحصائية أحد أهم هذه التطبيقات الذكية التي واكبت عصر المعلومات  Information Age، الذي أوجد عالما افتراضيا تتسابق إليه الأمم لإيجاد مكان لثقافتها وبالتالي لغتها من خلال اثراء محتوى رقمي يعكس رصيدها الحضاري والمعرفي. ولما كان المحتوى الرقمي باللغة العربية لا يفوق 3% من اجمالي المحتوى الرقمي على الشابكة، بات لزاما علينا ايجاد حلول تواكب هذا الانفجار المعرفي دون إغفال خصوصية اللغة العربية.

وفي إطار هذا البحث سنركز على ما يلي:

1- التحديات التي تواجه المعالجة الآلية للغات الطبيعية بصفة عامة مرورا بالتحديات التي تواجه اللغة العربية بصفة خاصة.

2- سياق التطوير الذي يتسم بانفجار معرفي تعكسه المعطيات الضخمة Big Data  المتدفقة عبر الشابكة من جهة وفجوة معرفية Digital Gap من جهة أخرى وسبل استغلال البيانات الضخمة في مجال الترجمة الآلية.

3-  سنتعرض إلى تقنية الترجمة الآلية بمقاربة احصائية: سنلقي الضوء على بنية هذه النظم ثم نتناول مواطن الضعف والقوة، ووصولا إلى معايير تقييم جودة الترجمة في نظم الترجمة الآلية.

ويخلص البحث إلى  خلاصة وتوصيات من شأنها الاسهام في تحسين أداء نظم الترجمة الاحصائية.

لم تشهد البشرية تدفقا للمعلومات بالحجم الهائل الذي تشهده اليوم ويرجع ذلك لتطور التقانات التي أصبحت اليوم تستوعب كل هذه المعلومات وتتيح تخزينها رغم حجمها الهائل، إضافة إلى تسهيل تنقلها عبر الشبكة بسرعة تتزايد باستمرار، وبناء على ما سبق، فإن التعامل مع هذه الأحجام الهائلة من المعلومات لا يمكن أن يكون إلاّ من خلال الطرق الإحصائية، هذه الطرق التي لا غنى عنها سواء تعلق الأمر بتحليل البيانات الضخمة Big Data  ووصولا إلى الترجمة الآلية بمقاربة  إحصائية. وقد سعى هذا البحث إلى دراسة آلية الترجمة ضمن نظم الترجمة الآلية الإحصائية مرورا بطرق التقييم الآلية لجودة الترجمة وسنوضح نقاط الضعف والقوة ضمن هذ النظم. وقد كانت نتائج البحث مشجعة مقارنة مع الموارد المحدودة التي تم استعمالها فقد بلغت نتيجة تقييم مقياس BLEU نسبة 31.35% بالرغم من استعمالنا لمتن محدود من حيث المضمون ومن حيث الحجم. وقد توصلنا إلى أن بعض الخطوات البسيطة من شأنها تحسين هذه النسبة:

بإمكاننا إثراء نتائج هذا البحث من خلال تحسين نتائج التحليل اللغوي وعن طريق إدماج معاجم ثنائية اللغات ومتون لغوية موسومةannotated  وباستعمال تقنيات تصفيف المتون النظيرة التي يتبناها الخبراء في نفس الإطار.

لقد كانت نتائج ترجمة المحرك الإحصائي Mosesوالذي قمنا بتكييفه لدعم ثنائية اللغات (إنجليزية- عربية) مقبولة إلى حَدٍّ ما. غير أن طموحنا أكبر وقناعتنا أن وجود متون غنية وذات حجم كبير من شأنه إحداث قفزة نوعية على مستوى جودة الترجمة، وتجدر الإشارة إلى أنه قابل للتَّكَيُّفِ مع أي ثنائية للغات ويكفي فقط توفير المتون اللغوية الداعمة للثنائية التي نريد إنشاء النموذج من أجلها.

تواجه اللغة العربية تحديات كبيرة في عالم أضحى يتبنى لغة الأرقام في كل مجالات الحياة، وإذا كانت نسبة تمثيل المحتوى الرقمي العربي على الشابكة لا تعكس ثراءها ورصيدها الحضاري فإنها حتما تعكس هزالة الاستثمارات والمشاريع التي تسعى لتغيير هذا الوضع.

2- الانفجار المعرفيThe Knowledge Explosion  :

 أدخل عصر المعلومات Information Age تغييرا جذريا على كل مجالات الحياة وغير مفاهيم واستحدث أخرى فضلا عن أنه أثرى معاجم اللغة بمصطلحات جديدة مثل العالم الافتراضيvirtual world والشبكات الاجتماعية social networks، والمعطيات الضخمة Big Data. وقد عرفت البشرية نهضة علمية لا نظير لها في كل مجالات الحياة بفضل التقانات التي واكبت هذه الثورة المعلوماتية إضافة إلى الكم الهائل من المعلومات المتداولة على الشبكة والذي تتزايد نسبتها يوما عن يوم، وقد ورد في بحث( هيلبيرت ولوبيز2011- Hilbert & Lopez،2011) ( أن نسبة النمو السنوي للمعلومات المخزنة بلغت 23% ولو عدنا قليلا إلى الوراء لوجدنا أن القدرة العالمية على تخزين المعلومات قد تضاعفت خلال الفترة الممتدة بين 1986 إلى 1996 بنسبة 800%، وبنسبة 4100% مع حلول سنة2004.

إن التزايد المستمر لمخزون العالم المعلوماتي والمتبادل على الشبكة والمتنامي نموا أسيا يمثل تحديا كبيرا أمام النظم المعلوماتية التي تتحكم في طرق تبادل وتسيير المعلومات غير أنها لا تتحكم كلية في طبيعة المعلومات وذلك ما أدى إلى استحداث برمجيات ذكية لتحليل المعطيات Big Data Analysis، وتكمن أهمية هذا النوع من البرمجيات في استعماله للطرق الاحصائية لتصنيف المعلومات ومن ثم استغلال المعطيات الناتجة للتنبؤ بالتوجهات السائدة في الأسواق العالمية او حتى لتحليل المشاعر ضمن الشبكات الاجتماعيةSentiment  Analysis أو لاسترجاع المعلومات Information retrieval

3- المعطيات الضخمة Big Data واللغة العربية

بالرغم من ضخامة حجم المعلومات على الشبكة إلا أن نسبة المحتوى الرقمي باللغة العربية لا تفوق 3% ، نسبة ضئيلة لا تعكس بأي حال من الأحوال رصيدنا الفكري والحضاري  لكنها ليست مسألة حتمية، وبإمكاننا استغلال التقانات المتوفرة وتطويعها لخدمة اللغة العربية  فبالنسبة لنظم الترجمة الآلية الاحصائية مثلا والتي تعاني من شح الموارد اللغوية لتدريب نماذج الترجمة على غرار المتون اللغوية، يمكن استغلال الحجم الهائل للمعلومات المخزنة على الشابكة لإنشاء متون لغوية linguistics corpora أحادية اللغة وثنائية اللغة ومتون متخصصة.

ومن ناحية أخرى، يتعين على اللغويين وبمساعدة المختصصيين استحداث المصطلحات التي تواكب التقانات المتقدمة وذلك من خلال استغلال الكلمات العربية الصحيحة والأوزان المناسبة.

 


شاركنا

جميع الحقوق محفوظة للمصادر الأصلية للمواد المنشورة

ونرحب بتلقي اسهامتكم والإنضمام إلى فريق التحرير والترجمة بالمجلة