التعرف على الكتابة
مقدمة:
كان اختراع الكتابة في الألف الخامس قبل الميلاد نتيجة لتطور المجتمعات البشرية. فمع تطور الحضارات أصبح من الضروري العثور على وسيلة لحفظ القوانين ولتناقل الأفكار والأخبار. ومن أهم المناطق التـي بدأ فيها تطور الكتابة: بلاد الرافدين والشام ومصر، بالإضافة إلى بلاد فارس والإغريق. وقد استعملت الألواح الطينية والحجرية بداية لتناقل هذه المعلومات قبل أن يخترع الصينيون الورق في القرن الثاني للميلاد. وبقي الخط اليدوي هو المستعمل إلى أن تم اختراع الطباعة لتسود بعد ذلك الأحرف المطبوعة إلى يومنا هذا.
لا تقتصر الكتابة اليدوية Hand Writing على النصوص اللغوية فحسب، بل تتجاوزها إلى كتابة المعادلات الرياضية، المعادلات الكيميائية، الدارات الكهربائية، والمخططات الهندسية، لتشمل بذلك كل ما يمكن أن تبدعه اليد البشرية. فهي مهارة فردية تتطور منذ الولادة لتجعل صاحبها قادراً على التعبير ونقل أفكاره عن طريق كتابته. لدرجة أنه يمكن القول أن كتابة شخص ما تعتبر بصمة مميزة لهذا الشخص.
وقد يظن البعض أن التقدم التكنولوجي الهائل والسريع قد وضع الكتابة اليدوية في خطر كون أن المستندات الرقمية (الحاوية على نصوص، رسوم، ومعادلات … الخ) أصبحت تعد بالملايين، وأصبحت أساسية لأي بحث علمي. ومن السهولة بمكان تناقل وتبادل هذه المستندات عبر آلاف الكيلومترات.
غير أن الكتابة بقيت هي الطريقة المفضلة لدى الغالبية العظمى للتعبير عن أفكارهم وتبادل المعلومات. مما دفع إلى اختراع أدوات جديدة تسهل الدمج بين الكتابة التقليدية والمستندات الرقمية، من أهم هذه الأدوات: القلم الرقمي، الألواح الرقمية، المساعد الرقمي الشخصي PDA، وأخيراً أجهزة الحواسيب والهواتف النقالة التـي تعتمد على الشاشات الحساسة للمس والمزودة بأقلام تسمح بإدخال الكتابة اليدوية.
أنظمة التعرف
كل هذا التطور فتح الباب واسعاً أمام الأبحاث التـي تهدف إلى الوصول إلى البرمجيات القادرة على الاستفادة من هذا التطور في الأدوات، ومن هنا ظهرت برمجيات التعرف على الكتابة Recognition Systems والتـي تتيح للمستخدمين حرية التعبير عن أفكارهم باستخدام الكتابة، وفي نفس الوقت تتيح تحويل هذه الكتابات إلى شكلها الرقمي مما يفتح المجال لأرشفتها أو تناقلها أو معالجتها لاحقاُ.
من أهم تطبيقات التعرف على الكتابة:
التعرف على المحارف Character Recognition
التعرف على النص Text Recognition
تحديد الهوية Writer Recognition
التحقق من الهوية Writer Authentication
التعرف على الدارات الكهربائية
التعرف على المعادلات الرياضية
والعديد من التطبيقات المهمة الأخرى ، من الجدير بالذكر أننا نتحدث عن الكتابة اليدوية وليس عن الأحرف أو الأشكال المطبوعة، علماً أن التعرف في كلا الحالتين يرتكز على العديد من الأسس المشتركة.
يمكن تقسيم عملية التعرف في كل من التطبيقات السابقة إلى أربع مراحل أساسية تختلف بتفاصيلها من تطبيق إلى آخر إذ يجب أن تحترم خصوصية المشكلة المعالجة، هذه الخطوات هي:
التقطيع Segmentation
التعرف Classification
التحليل البنيوي Structural Analysis
النموذج اللغوي Language Model
كما أن تعقيد أي تطبيق يعتمد بشكل أساسي على القيود المفروضة على الكتابة، فعلى سبيل المثال، يمكن أن نفرض على المستخدم كتابة كل حرف أو رمز بجرة قلم واحدة Stroke وبالتالي نسهل عملية التقطيع.
على أي حال، التطبيق المثالي هو الذي لا يفرض أي قيود على الكتابة، أي يعطي حرية تامة في الكتابة، ولكن بالمقابل تكون هذه التطبيقات شديدة التعقيد وقد تحتاج إلى زمن طويل نسبياُ للتعرف على الكتابة المدخلة.
أنواع الكتابة من حيث المعلومات المتوفرة:
يمكن أن نميز نوعين أساسيين Online و Offline الشكل 2 المجاور:
1- Online:
في هذه الحالة تكون إشارة الدخل مأخوذة بشكل مباشر من أداة الدخل (على سبيل المثال: القلم الرقمي). وفي هذه الحالة تكون إشارة الدخل عبارة عن تغير الإحداثيات مع الزمن، بالإضافة إلى معلومات أخرى تختلف باختلاف أداة الدخل كالضغط مثلاً. وتعرف جرة القلم Stroke بأنها مجموعة النقاط المرسومة بين وضع القلم PenDown ورفع القلم PenUp، فيكون المحرف هو عبارة عن مجموعة من جرات القلم Strokes.
2- Offline: وتندرج هذه الحالة ضمن برمجيات معالجة الصورة، إذ يكون الدخل عبارة عن صورة، إي أننا نحتاج إلى مرحلة إضافية قبل أن نكون قادرين على استخلاص إحداثيات النقاط المشكلة للدخل، كما أن محور الزمن مفقود في هذه الحالة ولا يمكن معرفة أي جرة قلم Stroke تمت كتابته قبل الآخر. أي نعرف الدخل في هذه الحالة بأنه مجموعة البكسلات Pixels I(x,y) دون أي معلومات تتعلق بالكتابة نفسها.
التدريب:
بغض النظر عن نوعية الدخل، وقبل الخوض في تفاصيل آلية أي تطبيق للتعرف، من المهم أن نعرف أن أي نظام للتعرف بحاجة إلى مرحلة من التدريب والفحص قبل أن يوضع بالخدمة. على سبيل المثال: إذا كنا نريد بناء تطبيق للتعرف على الكلمات العربية Online لاستعماله في كتابة الرسائل القصيرة في أجهزة الهواتف النقالة، نحن بحاجة إلى قاعدة معطيات للكلمات العربية (أو الأحرف العربية وذلك تبعاُ للآلية المستخدمة). ومن ثم يتم تقسيم هذه القاعدة إلى بيانات للتدريب Train وبيانات للاختبار Test، حيث يتم تدريب النظام باستخدام جزء التدريب Train ويفحص أداؤه باستخدام جزء الاختبار Test.
قد تأخذ عملية التدريب وقتاً طويلاً يمتد لعدة أيام وذلك تبعاً للتطبيق. ومن الجدير بالذكر أن غالبية أدوات التعرف Classifiers قادرة على الوصول إلى معدل تعرف يصل إلى 100% على قاعدة التدريب، ولكن هذا لا يعني أنها أصبحت قادرة على التعرف على أي دخل. وهنا يأتي دور قاعدة الاختبار التي تعكس قدرة النظام على ما يسمى بالتعميم generalization، حيث عادة يتم إيقاف عملية التدريب عند الوصول إلى معدل تعرف مقبول على قاعدة الاختبار.
الخاتمة:
تهتم الكثير من المؤتمرات العالمية بموضوع تحليل المستندات document analysis بشكل عام, وتطبيقات التعرف بشكل خاص. على سبيل المثال:
International Conference for Document Analysis and Recognition أو ما يعرف اختصاراً بـ ICDAR.
Document Recognition and Retrival (DRR).
والعديد من المؤتمرات الأخرى.
مما يعكس أهمية موضوع التعرف على المستوى العالمي, أما على مستوى اللغة العربية فما زالت الأبحاث في مراحلها الأولى.
في الختام, قدمنا لكم في ما سبق لمحة سريعة عن مبادئ التعرف على الكتابة مع بعض التفاصيل البسيطة. بهدف توضيح المفاهيم والأفكار المستعملة قبل الخوض في التفاصيل التقنية والخوارزميات المستعملة مع هذه الأنظمة في أعداد قادمة بعونه تعالى.
أحمد منتصر أول : خريج 2005 قسم الذكاء الصنعي
ماجستير نظم معلومات من جامعةINSA de Lyon فرنسا—سنة ثانية دكتوراه في التعرف علي البنى ثنائية الأبعاد
في جامعة Ecole Polytechnique de l’université de Nantes فرنسا
مقدمة:
كان اختراع الكتابة في الألف الخامس قبل الميلاد نتيجة لتطور المجتمعات البشرية. فمع تطور الحضارات أصبح من الضروري العثور على وسيلة لحفظ القوانين ولتناقل الأفكار والأخبار. ومن أهم المناطق التـي بدأ فيها تطور الكتابة: بلاد الرافدين والشام ومصر، بالإضافة إلى بلاد فارس والإغريق. وقد استعملت الألواح الطينية والحجرية بداية لتناقل هذه المعلومات قبل أن يخترع الصينيون الورق في القرن الثاني للميلاد. وبقي الخط اليدوي هو المستعمل إلى أن تم اختراع الطباعة لتسود بعد ذلك الأحرف المطبوعة إلى يومنا هذا.
لا تقتصر الكتابة اليدوية Hand Writing على النصوص اللغوية فحسب، بل تتجاوزها إلى كتابة المعادلات الرياضية، المعادلات الكيميائية، الدارات الكهربائية، والمخططات الهندسية، لتشمل بذلك كل ما يمكن أن تبدعه اليد البشرية. فهي مهارة فردية تتطور منذ الولادة لتجعل صاحبها قادراً على التعبير ونقل أفكاره عن طريق كتابته. لدرجة أنه يمكن القول أن كتابة شخص ما تعتبر بصمة مميزة لهذا الشخص.

وقد يظن البعض أن التقدم التكنولوجي الهائل والسريع قد وضع الكتابة اليدوية في خطر كون أن المستندات الرقمية (الحاوية على نصوص، رسوم، ومعادلات … الخ) أصبحت تعد بالملايين، وأصبحت أساسية لأي بحث علمي. ومن السهولة بمكان تناقل وتبادل هذه المستندات عبر آلاف الكيلومترات.
» أكمل القراءة
أحدث التعليقات