مشکلات پروژهٔ بازبینی OCR

۱۰ خرداد ۱۳۹۲

بعد از بهبود اخیر بستهٔ میزبانی، پروژهٔ بازبینی OCR گنجور (توضیحات بیشتر) به لحاظ تغییر نسخهٔ PHP و نیاز به تغییر نسخهٔ بستهٔ نرم‌افزاری پشت آن (CakePHP) به کلی از کار افتاده است و هر چند تلاش می‌کنم آن را دوباره به کار بیندازم؛ این کار چندان کار ساده و بدیهی‌ای نیست و ممکن است کمی طول بکشد. به این لحاظ مناسب دیدم نکاتی را جهت اطلاع تمامی دوستانی که در این چند سال در این پروژه مشارکت کرده‌اند مطرح کنم.

اول این که اطلاعات بازبینیها صدمه‌ای ندیده و مشکل تنها مربوط به نرم‌افزار اجرایی است، لذا زحمت هیچ کسی به هدر نرفته است.

دوم این که علی‌‎رغم آن که کار بازبینی کلیات ملک‌الشعرای بهار مدت زیادی است تمام شده، علت در دسترس قرار نگرفتن آن پس‌پردازشی است که من شخصاً لازم است روی خروجیها انجام دهم. این پس‌پردازش اولاً شامل تعیین ترتیب مصاریع است که لزوماً توسط نرم‌افزار به درستی تشخیص داده نشده (مثلاً در صورتی که شعری به صورت دو ستون مقابل هم چاپ شده باشد نرم‌افزار تمام مصرعهای اول را پشت سر هم قرار داده و بعد مصرعهای دوم را آورده و چون این به نحوهٔ چاپ بستگی دارد در صفحات بعدی ممکن است چنین مشکلی نباشد) و ثانیاً شامل فیلتر کردن بعضی ورودیهای ناصحیح است. برای هر دوی این کارها برنامه‌های کامپیوتری تهیه شده اما باز هم کار دستی لازم است انجام شود که طول می‌کشد.

پس تا مدتی این پروژه در دسترس نخواهد بود و پس از در دسترس قرار گرفتن مجدد اطلاع‌رسانی خواهد شد. از خیل انبوه دوستانی که تا به حال در این پروژه مشارکت داشته‌اند به سهم شخصی خودم سپاسگزاری می‌کنم.

۱۷ خرداد ۱۳۹۲: مشکل اشاره شده در حال حاضر حل شده است و بازبینی قابل انجام است، با بررسی وضعیت فعلی آثار امیرمعزی به نظر می‌رسد هنوز نیاز است تا مدتی کار بازبینی ادامه پیدا کند.

یک نظر برای “مشکلات پروژهٔ بازبینی OCR”

  1. حسین زاده گفته:

    سلام وقت بخیر درباره رباعی شماره ۲ رودکی به نظرم می رسد چنین باشد:

    با آن که دلم از غم هجرش خونست شادی به غم اندر ز غمش افزونست
    اندیشه کنم هرشب و گویم یارب هجران ش چنینست وصالش چونست

نظرتان را بنویسید