تابعنا
الرئيسية / مقالات


مشاركة المقال عبر



الحرف العربي والحوسبة

بقلم : أ/ محمد زكي خضر

اللغة العربية أم اللغات السامية. والآثار المكتشفة عن الكتابة العربية لا تعود إلا لفترات متأخرة من تأريخ اللغة العربية. فاللغة العربية أساسا لغة متوارثة نطقا قبل أن تتوارث كتابة. وما يعنينا في هذه المحاضرة هو الحرف العربي بشكليه المنطوق والمكتوب وعلاقتهما بالحوسبة. وحيث إن حقل الحوسبة الذي يتعامل مع اللغات الطبيعية يدعى بالذكاء الاصطناعي فلا بد من إعطاء مقدمة عن هذا الحقل وتقدمه في العقود الأخيرة وما ينتظره من تطورات في المستقبل.

إن أهمية معالجة اللغة العربية بالحاسوب لم يعد أمر رفاه أو أمرا ثانويا، بل هو أمر في غاية الأهمية وعليه يعتمد مستقبل اللغة ومكانة العرب في الحضارة الحالية بل ومستقبلهم الاقتصادي والعلمي.

الذكاء الاصطناعي

بعد فترة وجيزة من اختراع الحواسيب، تبين أن بإمكان الحاسوب القيام بعمليات غير الحسابات الرياضية. وأن السرعة التي يقوم بها الحاسب بعملياته يمكن استعمالها في الكثير من المهام غير الرياضية البحتة. فقد تبين أن هناك إمكانية لاتخاذ القرارات وأن هناك إمكانية لتمييز الأنماط وأن هناك إمكانية  للتعرف على الصور. وقد تكونت حقول جديدة تقع تحت مظلة الذكاء الاصطناعي كان من أهمها حقل معالجة اللغات الطبيعية. وقد تطور هذا الحقل ليشمل العديد من جوانب معالجة اللغات الطبيعية من نواحي الكتابة وتصحيح الإملاء والقواعد النحوية والصرف والمعاني والترجمة بل وحتى البلاغة والشعر.أما حقل التعرف على الأشكال والصور والنماذج فقد دخل في تطبيقات عديدة مثل التعرف على المواقع والتطبيقات العسكرية والتنقيب عن المعادن والإبحار في المحيطات وسفن الفضاء وغير ذلك. وما التعرف على الكتابة سوى واحد من هذه التطبيقات. ومن الجوانب الأخرى للذكاء الاصطناعي النظم الخبيرة التي تستخدم في معالجة المرضى وإصلاح الأعطال والتحكم الآلي وغيرها.

بعض الوسائل الحديثة في الذكاء الاصطناعي:

-المنطق الظني(Fuzzy Logic)

يعيب الكثيرون على الحاسوب أنه يتعامل مع الأرقام بدقة هائلة بينما الحياة ليست كذلك. فأنت تقول الجو حار وقد يعني ذلك 30 درجة مئوية في عمان أما في دبي فحينما تقول الجو حار فلا يعني ذلك أقل من 40 درجة مئوية. ويعني ذلك أن لفظة حار نسبية وقد تعني هنا ما لا تعنيه هناك. ومثل ذلك كلمات مستعملة بكثرة في اللغة مثل طويل وقصير وثقيل وبعيد وما يشبهها. هذا بالإضافة إلى كلمات أخرى تضاف إلى مثل هذه الكلمات مثل "ما يقرب من" و"جدا" وغير ذلك من الإضافات.

وهكذا وجد حقل جديد للتعامل مع الألفاظ اللغوية العادية بحيث يفهمها الحاسوب ويحسن التعامل معها كما يتعامل معها الإنسان مثال ذلك: إذا كان هناك مدَّة طويلة بين حرفين فعلى الغالب هي حرف سين وسطية إذا كان هناك حرف سين بثلاث ركزات وفوقه نقطة واحدة فربما هو حرف شين والثلاث نقط قد تجمعت بنقطة واحدة هذه القواعد ليست صارمة بحيث يمكن التعامل معها بالطرائق الرياضية التقليدية بل يجب أن تعامل وفق منطق الاحتمالات والمنطق الظني.

-الشبكات العصبية (Neural Networks)

لقد تعلم الإنسان من خلقته التي خلقه الله عليها. فالشبكات العصبية في دماغ الإنسان وفي جسمه تعمل بطريقة غاية في الدقة والتعقيد. فقد وجد أن المعلومات لا تخزن في دماغ الإنسان في موقع معين بل تتوزع على خلايا عصبية عديدة وعندما يحاول المرء تذكر أمر ما فإنه يجمع هذه المعلومات من شتاتها. وهكذا استطاع الإنسان أن يحاكي ذلك فيستعمل شبكات عصبية اصطناعية داخل برامج الحاسوب تقوم بحل مسائل عديدة خاصة ما يحتاج منها إلى تمرين وتعلم واستفادة من الماضي. مثال ذلك استعمال الشبكات العصبية في قواعد حروف الجر في اللغة العربية .

-الخوارزميات الجينية (Genetic Algorithms)

تعلم الإنسان مما يحدث في الكون من تطور وتغير دائم وحركة دائمة نحو السمو والكمال في كل شيء والخالق جل شأنه خلق كل شيء فأحسن خلقه. وبمحاكاة ذلك أمكن إيجاد وسائل رياضية تحاول الوصول إلى حلول مسائل متعددة في الحياة العملية ومنها ما يتعلق باللغات الطبيعية؛ وهي حقل جديد بدأ الدخول مؤخرا في معالجة اللغات الطبيعية.

ترميز الحرف العربي على الحاسوب

مر ترميز الحرف العربي على الحاسوب بمراحل عديدة كان آخرها ظهور الرمز العالمي الموحد (unicode). ولمعرفة تفاصيل ذلك يمكن الرجوع إلى محاضرة المؤلف" الحروف العربية والحاسوب" التي ألقيت في الموسم الثقافي الرابع عشر للمجمع عام 1996.

بدأ مشروع الرمز العالمي الموحد عام 1988 لمعالجة التداخل بين اللغات المختلفة ومشكلة استعمال الرمز نفسه من قبل أكثر من لغة واحدة. فعند إدخال وثيقة تعمل بلغتين كانت الرموز قبل الرمز العالمي الموحد تؤدي إلى غموض وتداخل بين الرموز. وقد أقر استعمال الرمز العالمي الموحد عام 1991 وقد امتاز الرمز العالمي الموحد بمزايا منها الحسن ومنها السيئ، فمثلا تم استعمال 16 رمزا ثنائيا أي ضعف عدد الرموز الذي كان مستعملا قبل ذلك وبذلك أصبح الحيز الذي يشغله النص المكتوب بهذا الرمز ضعف ما كان عليه سابقا.

خصصت مواقع للرموز وليس لأشكال الحروف كما أن الرموز كانت للنصوص العادية دون أية إضافة كنوع الخط أو إضافة خط تحت الحرف وغير ذلك وقد استعمل الرمز نفسه للحرف الذي يظهر في أكثر من لغة فحرف الباء بالعربية له الرمز نفسه الحرف الباء بالفارسية أو الأوردية كما أن هذا الترميز يستطيع قبول التشكيل بما يناسب اللغة العربية ولكن رمز الحرف المشكول سيكون مضاعفا أي مكونا من رمز الحرف ورمز حركة التشكيل.

وعلى هذا لم يخلُ هذا الترميز من مساوئ. أهم تلك المساوئ هو الكفاءة فهو كما ذكرنا يحتاج ضعف حجم طرائق الترميز السابقة كما أن استعمال الرمز نفسه للُّغات ذات الأبجديات المتداخلة قد يؤدي إلى التباس بين اللغات فربما كان هناك مجموعة حروف تعطي كلمة ذات معاني مختلفة بين لغتين مثل العربية والفارسية. فقد ترد الكلمة ويراد ترجمتها إلى الإنجليزية وليس هناك ما يشير هل الكلمة مراد ترجمتها من العربية أم من الفارسية كما أن مجموعات الحروف المشتركة قد وضعت بشكل لا يخدم كل اللغات بوقت واحد مما يتسبب في صعوبات في وضع تطبيقات لكل لغة على حدة وخاصة فيما يتعلق بالترتيب الأبجدي حيث لا يتوفر هذا الترتيب لكل اللغات المشتركة في الحروف الهجائية كما أن عمليات نقل المعلومات من الترميز القديم إلى هذا الترميز الموحد تعاني من مشاكل عديدة وكذلك من الترميز الموحد إلى الترميز القديم.

-الترميز المتعدد

في ضوء القصور الذي يعاني منه الرمز الموحد برزت حاجة إلى رمز يعتمد على اللغات المختلفة فقد اقترح ما يسمى بالترميز (المتعدد multicode)[4] والذي يحوي على رمز خاص باللغة و8 رموز ثنائية للحروف (أو 16 حرفا إن احتاجت اللغة ذلك) وبذلك يمكن شمول جميع لغات العالم عدا بعض اللغات ذات الأبجدية الطويلة كالصينية والكورية واليابانية فيمكن أن تعامل بشكل خاص. وقد اقترح في هذا الرمز أحد الرموز وهو الرمز الأخير المرقم 255 (FF بالنظام السداسي عشر) لعملية الانتقال من لغة لأخرى لكي يبين كيف يمكن الانتقال من لغة إلى أخرى.

ورغم كل ذلك فإن مسألة التشكيل في اللغة العربية لم تعالج بشكل مرْضٍ لحد الآن حيث تعامل حركات التشكيل كحروف مستقلة مما يؤدي إلى صعوبات عديدة.

-تمييز الحروف العربية

الكتابة هي سجل التاريخ الإنساني، وقد حفظت لنا وقائع ونصوص آلاف السنين منذ نشأة الكتابة إلى يومنا هذا. وستبقى الكتابة على الورق أو غيره كذلك في المستقبل. ورغم أن هناك من يتصور إن الكتابة الإلكترونية على رقائق السليكون في ذاكرات الحواسيب قد تحل محل الورق، إلا أن ذلك مشكوك فيه على الأقل لحد هذا اليوم.

الكتابة العربية مرت بمراحل عديدة ولم تصل وضعها الحالي إلا بعد تطورات عديدة. فالكتابة العربية قبل الإسلام وفي صدر الإسلام لم تكن منقوطة. لكن التشكيل أضيف للكتابة حتى قبل التنقيط. وقد ظهرت العديد من أنواع الخطوط وتفنن الخطاطون العرب بابتداع خطوط في غاية الروعة والجمال.

وبعد دخول الطباعة إلى العالم العربي، شاعت خطوط معينة وقل استعمال الشكل على الأقل في المشرق العربي. وقد أدى ذلك إلى شيوع اللحن في القراءة وضعف التزام القارئ العربي بضبط أواخر الكلمات.

وعند دخول الحواسيب في العقود الأخيرة من القرن المنصرم، استعملت الطابعات التي تكتب العربية ثم ظهرت الشاشات التي تظهر الكتابة العربية وتحسن جمال هذه الكتابة وأصبح بالإمكان تشكيل النصوص العربية إلا أن التشكيل اعتبر رمزا مستقلا، شأنه شأن الحروف. وقد اعتبر لبعض الحروف رموز عديدة كالهمزة بحسب وضعها من الكلمة. وعلى هذا فإن استعمال الرموز في الحاسوب استند إلى خدمة الكتابة كرمز وليس كشكل ولم يكن هذا الاستعمال خدمة أمينة لمحتوى الكلمة العربية أيضا

وإذا ما أريد لهذا الوضع أن يصحح، فإن مقدارا من الذكاء يجب أن يدخل للبرامج العربية التي يتعامل معها المستخدم بحيث تساعده للاقتراب من اللغة العربية السليمة.

تعتمد عملية قراءة النص العربي من قبل الحاسوب على المسح الضوئي للنصوص المطبوعة أو المكتوبة، وهي عملية سهلة ومتيسرة اليوم. لكن الصور التي تنتج نتيجة هذا المسح الضوئي قد تنتج بعض التشويش وما يسمى بالضوضاء التي قد تشوش عملية التمييز في المراحل اللاحقة.

خطوات عملية التمييز:

تتكون عملية التمييز من خطوات أولى تلك الخطوات هي عملية المسح الضوئي وذلك بتحويل الصفحة إلى مجموعة من النقط السوداء والبيضاء. ويعتمد عدد هذه النقط على دقة الماسح الضوئي وتتراوح دقة الماسحات حوالي 300 نقطة لكل بوصة أو أكثر من ذلك.

تتضمن الخطوة التالية عمليات تهيئة تدعى بمرحلة ما قبل التمييز. وهذه المرحلة تتضمن معرفة المواصفات العامة للوثيقة. فهل تحتوي على رسوم وأشكال وهل تحتوي على عدد من الأعمدة أم عمود واحد وهل أصلا كان تصويرها مائلا أم عموديا وهل تحوي جداول.. إلى غير ذلك من المواصفات. وخلال هذه العملية يجري تحديد الأسطر ووضع حدود فارقة بين سطر وآخر وتحديد ارتفاع الكتابة في السطر الواحد وهكذا.

أما الخطوة الأخرى فهي تتعلق بالتعرف على الكلمات والمقاطع والحروف بمختلف أشكالها ومواقعها في الكلمة، ثم استخلاص سمات كل جزء من المقطع وذلك تمهيدا للمرحلة اللاحقة التي تقوم بعملية مطابقة هذه السمات مع ما يعرف من مواصفات للحرف أو المقطع الواحد.وهذه أهم وأصعب خطوة في عملية التمييز. وقد أجريت أبحاث معمقة فيما يخص الكتابة المطبوعة.من السمات التي تميز حرفا عن غيره: عدد النقاط ومواقعها واستقامة الحرف وعرضه وارتفاعه وعلوه عن متوسط السطر والميل وعدد الحلقات المقفلة وشكلها والحجم الكلي ومركز ثقل الحرف ومواقع نقاط الاتصال مع ما قبله أو مع ما بعده وغير ذلك من السمات الأخرى. أما الكتابة المكتوبة بخط اليد فلا تزال تعاني من انخفاض في الدقة وكثرة أخطاء ولبس بين حرف وآخر نظرا لأن الذكاء الاصطناعي المدخل في هذه البرامج لم يبلغ درجة عالية من النضج والعمق.وتتبع في عملية التمييز وسائل متعددة  رياضية ومنطقية وشكلية وقواعد بيانات وغير ذلك. إلا أن ما تجدر الإشارة إليه أنه كلما كانت البرامج أقرب إلى ما يفعله الإنسان في قراءة النصوص كلما كانت الدقة أعلى. ولكن استنباط ما يقوم به الإنسان ومحاكاته في الآلة ليست عملية سهلة على الإطلاق. وتجدر الإشارة إلى أن بعض مناهج تمييز الكتابة تعتمد تمييز المقطع أو الكلمة أصلا وليس الحرف. ويشبه ذلك ما تدعو إليه بعض المناهج التعليمية للأطفال من تعليم الطفل الكلمات قبل تعريفه على الحروف.

وما يميز اللغة العربية هو تشابه حروف كثيرة مع اختلاف في عدد النقط ومواقعها. ورغم أن هذه الميزة ميزة مفيدة، إلا أنها قد تكون عائقا في بعض الأحيان وذلك عند عدم قدرة الآلة على تمييز النقطة الضعيفة أصلا أو الخلط بين النقطة والنقطتين والثلاث أو الظن بوجود نقطة نتيجة عدم دقة الماسح الضوئي…إلى غير ذلك من صعوبات.

ويفيد في هذا الحقل وجود قاموس بالكلمات المتداولة وإعطاء احتمالات لماهية الكلمة المعنية إن كان لها معنى بوجود النقطة أو عدمه وكذلك التفريق بين أن يكون فيها نقطة واحدة أو أكثر. كما أن سياق الجملة قد يفيد في ذلك. لذلك فإن عملية تمييز الكتابة لا تنفصل عن معالجة الجملة العربية ككل  ولا عن معالجة الكلمة  والمقطع.

 


شاركنا

جميع الحقوق محفوظة للمصادر الأصلية للمواد المنشورة

ونرحب بتلقي اسهامتكم والإنضمام إلى فريق التحرير والترجمة بالمجلة