في تدوينة سابقة، تعرفنا على خدمة مجانية مفيدة جداً للتحويل من PDF إلى وورد ولاستخراج النصوص من الصور الممسوحة ضوئياً بواسطة Scanner … لنفس هذه الغاية، سنتعرف على برنامج مجاني رائع لاستخراج النصوص من الصور وهو برنامج Free OCR.
يتمتع هذا البرنامج بواجهة بسيطة وسهلة الإستخدام وبسرعة عالية جداً في استخراج النصوص من الصور الممسوحة ضوئياً باستخدام تقنية OCR. أعتبره بديلاً مجانياً منافساً لغالبية البرامج التجارية الباهظة الثمن لهذه الغاية.
يمكنك مسح أية وثيقة ورقية باستخدام Scanner عن طريق البرنامج نفسه ثم استخراج النصوص. ستظهر الوثيقة الممسوحة ضوئياً جهة اليمين، في حين سيظهر النص المستخرج جهة اليسار. بعد ذلك، يمكنك تصدير النص إلى ملف وورد. والأمر نفسه بالنسبة لملفات PDF التي يمكنك تحويلها إلى وورد.
يدعم هذا البرنامج مجموعة من اللغات غير الإنجليزية ويمكنك تحميل ملفات دعم اللغة وتثبيت ما تشاء منها (العربية ليست من ضمنها).
البرنامج مبني على محرك Tesseract OCR من شركة جوجل، وهو مفتوح المصدر، ما يعني – بالنسبة لنا كمستخدمين عرب نواجه مشكلات مع العربية عند التحويل واستخراج النصوص من الصور أو من ملفات PDF – أن بإمكان مبرمجينا العرب بناء تطبيقات برمجية على هذا المحرك مفتوح المصدر بحيث تدعم العربية، أو هكذا أعتقد!
كذلك، يمكنهم إضافة حزمة اللغة العربية لبرنامج Free OCR.
على العكس من برنامج SimpleOCR، فإنني أنصح ببرنامج FreeOCR وبشدة للأساب التي ذكرتها آنفاً، وأضيف عليها الدقة العالية والقدرة على استخراج أي نص من أي صورة؛ على العكس من الأول الذي قد يخفق مع بعض الحالات!
كنت قد ناقشت سابقاً الأسباب التي تمنع هذه البرامج ومبرمجيها من دعم العربية، ولغايات التلخيص فقط، سأسرد بعضها:
- اللغة العربية تتمتع بطبيعة خاصة ومعقدة ومخلفة على العكس من اللاتينية مثلاً، لأن مفرداتها تتكون من حروف متصلة.
- مشكلة محاذاة النصوص في العربية justified alignment.
- الحركات.
هامش:
لكل ما يتعلق بملفات PDF، اقرأ تدونتي هذه.

بسم الله الرحمن الرحيم
حقيقة كنت بحاجة لبرنامج كهذا يدعم اللغة العربية في فترة سابقة وكنت مستعد لدفع مبلغ (معقول) لهكذا برنامج ولكن لم اجد للأسف برنامج يفي بالغرض ..
سمعت عن برنامج يقال انه جيد اسمه Readiris ولكن صدمت من المبلغ الكبير الذي يتخطى الـ400 دولار !
الامل بعرب آيز
http://wiki.arabeyes.org/Arabic_OCR
حاجتنا لمثل هكذا برامج هو ما يجعلنا نحث الناس على شراء البرامج بدل القرصنة لأن الشراء هو الأمر الوحيد الذي سوف يشجع على دعم العرب من قبل الشركات التي تبيع هذي البرامج بأسعار معقولة .. او ربما شركة عربية لبرمجة البرامج التي يحتاجها العرب (لم لا ؟ )
نواف
جزاكم الله خيرا
تحياتي على هذا البرنامج الرائع
أهم ما يميزه أنه مجاني
لذلك فنحن بحاجة لمبرمجين ومطورين عرب يفهمون خصائص هذه اللغة بشكل أفضل
تدوينة رائعة و مفيدة استفدت منها حقاً
و استفدت ايضاً من تعليق الاخ نواف ^
و اتمنى يوماً ان يكون اللغة العربية لها نصيب كبير من الدعم
فى مجال استخراج النصوص OCR
يا للأسى.. إذن لن نستفيد منه في الوثائق باللغة العربية
مع ذلك لا اعتقد ان أمر دعم البرنامج للعربية أمر مستحيل لو تبنى ذلك أحد المبرمجين العرب
أذكر أن تجربتي مع برنامج Readiris نجحت مع العربية لكن بأداء ضعيف وكثير من الأخطاء، يدفع مجربة إلى اجتنابه تماما.
أستغرب بالفعل .. لم هذه الصعوبة العجيبة في تحويل النصوص الممسوحة وملفات PDF إلى العربية ؟!