پایان مرحلهٔ اول بازبینی خروجیهای OCR

مرحلهٔ اول بازبینی را با بیش از ۹۵۰۰۰ مورد بازبینی به پایان رساندیم (برخی بازبینیهای گذری شامل متون نامربوط و شیطنت‌آمیز بود که با فیلتر و گروه‌بندی بر اساس آی.پی فرستنده آنها را حذف کردم و این در آمار نهایی لحاظ نشده) که تقریباً تمامی ۵۳۰۰۰ و خرده‌ای خط شعر بریده شده از قصاید قاآنی به همراه عناوین و پاورقیهای آن و جلد اول غزلیات بیدل را پوشش می‌داد. با این حال از این تعداد حدود ۲۴۱۴۰ مورد (حدود ۴۶ درصد) تنها یک بار بازبینی شده‌اند و این احتمال وجود خطاهای زیاد در متن نهایی را بالا می‌برد.

در هر حال، با بازبینی کلی خروجیها نتیجه به نظرم رضایت‌بخش است ضمن آن که یکی از نشانه‌های آن که این بازبینی چقدر مؤثر بوده آن است که به دلیل آن که در نرم‌افزار OCR مورد استفاده در صورت تعیین نام فونت متن چاپی دقت بازشناسی افزایش می‌یابد من فونت تمام دیوان قاآنی را از پیش با یک فونت خاص تنظیم کرده بودم. فونتی که فقط شامل متن اشعار می‌شود و متأسفانه من نسبت به تیتر اشعار که فونت آن کاملاً متفاوت بود بی‌توجهی کرده بودم. در هر صورت، این قضیه را بعد از شروع کار بازبینی متوجه شدم و تصحیح این اشتباه مشکل بود. اثر تعیین فونت اشتباه برای متنها آن بود که تیتر اشعار بسیار بد بازشناسی شده بود و اغلب دوستانی که با این قسمتها برخورد می‌کردند باید کل متن را (که عموماً شامل القاب و عناوین ثقیل بود) از نو تایپ می‌کردند. جالب اینجاست که درصد بسیار بالایی از این عناوین با همان یک بار بازبینی توسط دوستان کاملاً تصحیح شده‌اند و این نشانگر میزان جدیت و دقتی است که دوستان در بازبینی اشعار به خرج داده‌اند.

تأثیر انتخاب فونت اشتباه و دقت بازبینی دوستان گنجور

در مجموع ۵۲۱۰ آی.پی مستقل از دوستانی که مشارکت کرده‌اند به ثبت رسیده است. نمودارهای زیر روند بازبینی را در ادامهٔ آمارهای قبلی (اینجا و اینجا) نشان می‌دهند.

آمار بازبینیهای گنجور
کشورهای بازبینهای گنجور

با تکمیل این مرحله مجموعاً (با احتساب قسمت کوچکی از کار که پیش‌تر بدون استفاده از سیستم عمومی بازبینی و توسط خود من انجام شده بود) حدود ۱۷۰۰۰ بیت از اشعار قاآنی (شامل کلیهٔ قصاید او) و حدود ۱۵۰۰۰ بیت از غزلیات بیدل دهلوی (جلد اول دیوان غزلیات بیدل چاپ انتشارات نگاه) در گنجور در دسترس قرار گرفته است. غزلیات بیدل بر اساس حروف آخر رَوی از نو مرتب شده‌اند (ترتیب پیش‌فرض نسخهٔ انتشارات نگاه بر اساس حرف آخر روی و سپس حرف اول مصراع اول غزل است که چندان کاربردی و قابل استفاده نیست). به زودی قسمتهای وزنیابی نشده از این اشعار را وزنیابی می‌کنم و صفحات آمار اشعار و وزنها (اینجا) را به‌روز می‌کنم.

قصاید قاآنی
غزلیات بیدل دهلوی

دیوان قاآنی تعداد قابل توجهی پاورقی دارد که آنها هم برای بازبینی در دسترس قرار گرفته بودند و عموماً تصحیح شده‌اند، این پاورقیها را که بعضاً شامل اطلاعات ارزشمندی هستند به مرور به صورت حاشیه پای اشعار او وارد خواهم کرد.

دوستانی که از گنجور رومیزی استفاده می‌کنند برای اضافه کردن این اشعار لازم است ابتدا از طریق ویرایشگر گنجور رومیزی، وارد اشعار بیدل و قاآنی شوند و با استفاده از عنوان «حذف شاعر» از منوی دکمهٔ شاعر جدید آثار این دو شاعر را از پایگاه داده‌های برنامه پاک کنند. سپس با دریافت این فایل برای غزلیات بیدل (شامل ۱۳۸۱ غزل) و این فایل برای قصاید قاآنی، خارج کردن آنها از حالت فشرده و سپس انتخاب آنها با کمک گزینهٔ «اضافه کردن مجموعه اشعار جدید» از منوی «ابزارها» این آثار را به گنجور رومیزی خود اضافه کنند.

غزلیات بیدل در گنجور رومیزی

در ادامهٔ کار، از دو هفته پیش، جلد دوم غزلیات بیدل را برای بازبینی در دسترس گذاشته‌ام. روند بازبینی را از حالت تصادفی قبلی به حالت ترتیبی تغییر داده‌ام تا در ابتدای کار، تمامی تکه‌ها حداقل یک بار بازبینی شوند. غزلیات و سایر اشعار قاآنی، کلیات اشعار ملک‌الشعرای بهار و کلیات دیوان امیرمعزی نیشابوری نیز اسکن و OCR شده‌اند و در مراحل بعد برای بازبینی در دسترس قرار خواهند گرفت.

38 فکر می‌کنند “پایان مرحلهٔ اول بازبینی خروجیهای OCR

  1. Sh

    سلام. واقعا که دست مریزاد. خیلی کارتون عالیه. ممنون از زحماتتون.
    با آرزوی موفقیت

    پی نوشت: می دونم ربطی نداره و شاید گفتنش هم یکم ناجور به نظر بیاد، ولی می شه بپرسم فونتی که تو گنجور رومیزی استفاده کردین و تو عکس هم هست (http://blog.ganjoor.net/wp-content/uploads/2010/09/dgbidel.jpg) چه فونتیه و از کجا میشه گیرش آورد؟
    با تشکر

  2. سید رضی

    چیزی برای گفتن ندارم!
    دست‌تون درد نکنه، دست عزیزانی هم که در این کار فرهنگی کمک کردند درد نکنه،
    امیدوارم در بازبینی این سری سعادت داشته باشم بیشتر کمک کنم.

  3. آرام

    درود بر شما

    ای کاش زودترک از این فعالیت شما با خبر می شدم
    دیر نیست از امروز به بعد…

    بنده ۲ سایت دارم با عنوان های زخمه های عاشقانه ۴mezrab.ir
    و سایت شخصی ام بسزهثدزث.زخئ

    خیلی خوشحال می شوم اگر کادر تصویر جذابی از سایتتان را که معرف و هدایت کننده بازدید کنندگان به سایت شما باشد برایم بفرستید تا در سایتم قرار دهم . اعتباری برای ماست.

    عرض دیگر اینکه بنده در سایتم یک کتابخانه کوچک و یک بخش شعر دارم اگر ممکن است بسنه اطلاعاتی در اختیار قرار دهید تا بتوانم سریع تر این بخش ها را تکمیل کنم

    درود بی پایان
    آرام

  4. رضا سيمي

    درود
    من كاملا به جايگاه ادبيات در فرهنگ معتقدم و براي شما احترام بسياري قائلم .
    مطمئنا سعي ميكنم كه در اين راه كمك (هرچند كوچك) كنم
    خسته نباشيد
    با آرزوي پيشرفت و موفقيت براي شما

  5. ساغر

    سلام و خسته نباشيد

    اين يكي از بهترين كارهاي فرهنگي هستش كه حداقل مي تونيم براي ايران و ايراني بودن انجام بديم.
    واقعاً از شما سپاسگزارم.

  6. امید

    با درود خدمت سروران گرامی
    ضمن سپاس گذاری از تصمیم ارزشمند شما و خسته نباشید امیدوارم که دوستانی که در شبکه های اجتماعی فعال هستند با اشتراک گذاشتن این سایت (درگاه) و توضیحاتی مختصر درخصوص توانایی افراد در همکاری این پروژه ملی در به پایان رسیدن هر چه سریعتر آن نقش بیشتری را ایفا کنند.من از طریق لینکی از بالاترین که بدون توضیح بود وارد این سایت شدم و بسیار از این رخداد خشنود شدم.

    همه با هم برای اعتلای فرهنگ تلاش کنیم.
    من اگر بخیزم تو اگر برخیزی، همه برخیزند.

    پیروز و سربلند باشید

  7. جلال

    با عرض سلام ودرود فزاوان خدمت کلیه دست انکاران این مجموعه
    خسته نباشید کار بسیار خوب و ازشمندی است در صورت امکان با اعراب گذاری و معنی ابیات کار تان تکمیلتر میگردد
    با ارزوی موفقیت روز افزون

  8. نوید

    واقعا ایده ی ناب و بزرگی است . صمیمانه از شما تشکر می کنم.
    در ضمن در صورت نیاز به همکاری با توجه به اینکه من برنامه نویس وب هستم حاضرم کمک کنم .

  9. دست نوشته

    درود بر شما
    بی‌شک کار که می‌کنید کار بسیار ارزشمند و قابل ستایش است
    این گنج عظیم شما برای همگان برای همیشه به یادگار خواهد ماند.

    هزار درود بر شما

  10. حمیدرضا نویسنده

    @نوید:
    در مورد همکاری، خوب خیلی جاها نیاز به کمک هست، ولی وقتی پای چند نفر در میون باشه، زمانی که برای هماهنگی و بازبینی نتایج کار همدیگه و مسائل دیگه نیاز میشه کار رو -حداقل برای من یکی- از یه سرگرمی به یه کار جدی تبدیل می‌کنه و من فکر نمی‌کنم بتونم چنین کاری رو مدیریت بکنم. من در حال حاضر هر وقت حوصله داشته باشم و به قول معروف عشقم بکشه روی گنجور کار می‌کنم و در صورتی که بخوایم چند نفری کار رو پیش ببریم اون وقت به واسطهٔ مسئولیتی که در قبال زحمت دیگران خواهم داشت مجبور میشم وقتهایی که توی موود کار روی سایت یا برنامه‌های جانبیش نیستم هم روی اون کار کنم و این تمام لذت کار رو از بین می‌بره. به همین جهت عموماً من درخواستهای همکاری در زمینهٔ برنامه‌نویسی رو حداقل در شرایط فعلی که کار برام یه سرگرمیه رد می‌کنم.

    از لطف بقیهٔ دوستان متشکرم.

  11. saghar

    ba salam man emruz ein saite shomaro didam va gharib be 8 saat haske dar ein sait josteju mikonam.
    kamale tashakor ra az shoma daram.
    khaste nabashid, khoda govat

  12. حميد

    سلام
    من از سايتتون ديدن كردم و واقعاً لذت بردم.خدا قوت و پاينده باشيد.
    در ضمن معرفي سايت خوبتون روي شبكه داخلي شركتمون، دوستان رو ترغيب به تصحيح نمودم.
    دمتون گرم
    اگه كمك ديگه اي از من ساخته بود در خدمتم

  13. حمید

    سلام . من از خیلی وقت پیش از گنجور استفاده می کردم .
    به همه ی اطرافیانم معرفی کردم نرم افزار رو . بسیار پروژه ی عالی و فعالی هست .
    خسته نباشید و امیدوارم مثل همیشه پیشرفتهای پروژه رو شاهد باشیم .
    این سیستم OCR جدید رو هم تازه دیدم . خیلی طرح خوبیه .
    تا جایی که مقدور باشه کمک می کنم .
    سپاسگزارم .

  14. جهان بزرگی

    سلام
    از زحماتتون تشکر می کنم …
    غزلیات بیدل تا غزل شماره ی ۴۹۳ رو داشتم این بسته رو دانلود کردم ولی بعد از نصب تغییری در تعداد غزلیات ایجاد نشد … مشکل چیه ..؟

  15. حمیدرضا

    @جهان بزرگی:
    ابتدا، از طریق پیکربندی نمایش دکمه‌ی ویرایشگر رو روی نوار ابزار فعال کنید. ویرایشگر رو باز کنید، برید توی قسمت بیدل، از منوی بازشوی دکمه‌ی «شاعر جدید»، «حذف شاعر» رو انتخاب کنید تا بیدل رو پاک کنید. بعد ویرایشگر رو ببندید و بیدل جدید رو اضافه کنید. حتماً قبل از این کار مطمئمن بشید که از آخرین ورژن دارید استفاده می‌کنید (در حال حاضر ۲.۱)، اگه آخرین ورژن نیست، نصاب بروزرسانی رو با استفاده از عنوان «پرس و جو برای ویرایش جدیدتر» از منوی راهنما دریافت کنید (حدود ۲۰۰ کیلوبایت) و اجرا و نصبش کنید.

  16. جهان بزرگی

    سلام
    ممنون از اینکه سریع جواب دادین …
    ولی مشکل حل نشد ، باور کنید همه ی این کارها را انجام دادم ، حتی فایل نصب نسخه ۲ را دانلود کردم دوباره برنامه را نصب کردم آپدیت رو هم دانلود و نصب کردم و کارهای لازم را انجام دادم اما باز همون ۴۹۳ غزل رو می یاره ، امکان نداره فایل غزلیات مشکل داشته باشه ؟ میشه بررسی کنید..؟
    ممنون

  17. حمیدرضا

    @جهان بزرگی:
    من جهت اطمینان همین فایل رو دوباره دریافت و آزمایش کردم، مشکلی ندیدم.
    ۱- اسم فایلی که از اینجا دریافت میشه bidel-1-1381.zip هستش و اندازه‌ی فایل gdb پس از باز کردن فایل زیپ ۲.۹۱ مگابایته، پس اگه هر کدوم از این موارد همخونی نداشت شما فایل اشتباه رو دریافت کردید.
    ۲- هر چند بعیده، اما پنجره‌ی پیکربندی رو باز کنید و مطمئن بشید که جلوی «حداکثر تعداد عنوانها در فهرست اشعار یک بخش» ۴۹۳ نباشه.
    ۳- بعد از حذف شاعر، که توی جواب قبلی گفتم به پنجره‌ی اصلی و صفحه‌ی خانه برگردید. Ctrl+F رو بزنید مطمئن بشید که «بیدل دهلوی» دیگه‌ای وجود نداره. اگه داره اون رو هم به همون شیوه حذف کنید و این کار رو تا وقتی که مطمئن شدید «بیدل» دیگه وجود نداره ادامه بدید.
    ۴- این راه باید صد در صد مشکل رو حل کنه: اگه نصاب ۲ رو کاملش رو دارید، اگه قبلاً شعرهایی رو نشانه‌گذاری کردید، از طریق منوی «نشانه‌ها» عنوان «برون‌ریزی نشانه‌ها» رو اجرا کنید تا ازش یه فایل خروجی بگیرید، بعد برید توی مسیر نصب فایل دیتابیس (ganjoor.s3db) رو پاک کنید یا تغییر نام بدید. نصاب کامل برای این که اطلاعات شخصی شما از بین نره تا وقتی این فایل از قبل وجود داره اون رو رونویسی نمی‌کنه. بعد نصاب کامل رو اجرا کنید. فایل دیتابیس جدید کپی میشه. بعد از طریق منوی «نشانه‌ها» عنوان «درون‌ریزی نشانه‌ها» می‌تونید فایل خروجیی رو که قبلاً تولید کردید انتخاب کنید و وارد دیتابیس جدید کنید.

  18. جهان بزرگی

    سلام
    ۱- اسم فایل همینه : bidel-1-1381.zip ، اما حجم ۲.۹۸ هست .
    ۲- حداکثر عنوان ها ۵۰۰ بود که انگار بیشتر از ۱۵۰۰ رو نمی پذیره ، که با این تغییر تعداد غزل ها به ۶۴۸ رسید …
    ۳- مرحله ی ۳ را هم انجام دادم .
    ۴- با اینکه نشانه گذاری نداشته ام ولی دیتا بیس را حذف و دوباره نصب کردم ….
    ضمنا در صفحه نمایش عنوان غزل ها کلید صفحه ی بعد و قبل غیر فعال است ولی با انتخاب غزل شماره ۶۴۸ (آخرین غزل نمایش داده شده ) ، در این صفحه کلید شعر بعد – شعر قبل فعال می شود و می توان به غزل های بعدی رفت …
    به نظرم باید کلید صفحه قبل و بعد را فعال کرد ، البته شاید اشکال درسیستم من باشد … در صفحه مشاهده ی شعرها اگر در کنار کلید شعر قبل – بعد کلیدی مثلا با عنوان برو به که بتوان شماره غزل مورد نظر را انتخاب کرد لازم به نظر میرسد …
    من از ویندوز ۷ استفاده می کنم … برنامه با این ویندوز که مشکل ندارد ؟
    از توجه و پاسخگوییتان متشکرم و امیدوارم من هم بتوانم کمکی در اضافه شدن ابیاتی به این برنامه بکنم .
    پست مربوط به چگونگی همکاری را خوانده ام و در اولین فرصت شروع خواهم کرد …
    ممنون

  19. حمیدرضا نویسنده

    @جهان بزرگی:

    از توضیحات شما اینطور من متوجه شدم که مشکل شما اندازه‌ی فونته، شما فونت خیلی بزرگی انتخاب کردید یا با استفاده از دکمه‌های بزرگنمایی روی نوار وضعیت اندازه‌ش رو بزرگ کردید. حداکثر اندازه‌ی کنترل نمایش شعر گنجور رومیزی سی و دو هزار و خرده‌ای پیکسله و وقتی بیشتر بشه مشکل داره. برای حل مشکل همون «حداکثر تعداد عنوانها در فهرست اشعار یک بخش» رو توی «پیکربندی» پایین بیارید (مثلاً ۲۵۰ تا)، اینطوری با کمک دکمه‌های صفحه‌ی بعد و قبل روی نوار ابزار می‌تونید بین تمام فهرست شعرها حرکت کنید. بین صفحات با نگه داشتن کلید Ctrl و زدن یکی از کلیدهای جهتی راست یا چپ می‌تونید جابجا بشید. راه دیگه‌ش پایین آوردن انداره‌ی فونته که شاید مناسب نباشه.

    برنامه با ویندوز ۷ مشکل نداره به شرط این که مسیر نصبش Program Files نباشه، مسیرهایی مثل C:\ganjoor یا D:\ganjoor مناسبه، دلیلش اینه که دیتابیس برنامه توی مسیر نصبشه و برنامه باید اون رو در حالت خوندنی/نوشتنی باز کنه و ویندوز ۷ برای Program Files چنین اجازه‌ای رو نمیده. این که شما می‌تونید برنامه رو اجرا کنید، یعنی این که مسیر نصب مشکل نداره.

  20. جهان بزرگی

    سلام
    بله ، کاملا درست گفتید ؛من ازفونت نی ریزی با اندازه ۱۶ استفاده می کردم … البته الان تو محیط xp با استفاده از xpmode برنامه رو نصب کردم و با اندازه ۹ فونت تاهوما دیدم همه ی غزل ها رو می آره و با خودم گفتم حتما برنامه با ۷ مشکل داره ، ولی با این توضیحات شما دیدم مشکل حل شد ، هم تو ۷ و هم تو xp با بالا رفتن اندازه ی فونت این مشکل پیش میاد که البته با توضیح شما مشکل حل شد…
    از پی گیری و راهنمایتون متشکرم …

  21. حمید.ا.ت

    با سلام و تشکر و آرزوی توفیق روزافزون
    بهتر نیست که در صفحه ی اول سایت پیوند مربوط به بازبینی های نرم افزار OCR را قرار دهید؟
    یاحق

  22. سید مصطفی

    سلام
    آقا حمید رضا دستت درد نکنه به امید خداهمیشه تو حس و حال کار کردن باشی و این سایت گسترده تر بشه اینجا یه سایت فاخرپارس برای پارسی زبان هاست.

  23. alirezaimi

    من تازه این قضیه کمک برای بازبینی رو دیدم و سعی میکنم وقت بذارم براش .
    خیلی عالیه ادامه بدید…

  24. کهنسال

    سلام
    واقعا خسته نباشید.به خاطر این همه جدیت و تلاش به شما تبریک می گم.
    من هر از چندگاهی به سایتتون سر می زدم و چند تا مصرع تصحیح می کردم.
    ادامه بدهید که شما سرمایه های این فرهنگ و هنر هستید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.