سیستم بازبینی چشمی خروجیهای او.سی.آر

پیش‌تر اشاره کرده بودم که قصد دارم به کمک OCR دامنهٔ داده‌های موجود در گنجور را گسترش دهم و کار را هم با اضافه کردن کتاب کوچکی از سنایی غزنوی، قسمتی از غزلیات بیدل دهلوی و چند قصیده از قاآنی شروع کرده بودم.

قبلاً هم گفته بودم که اضافه کردن اشعار با استفاده از OCR، غیر از امکانات و زمانی که برای اسکن و اجرای پردازش OCR روی ورودیها و دریافت خروجی نیاز دارد نیاز به یک کار چشمی پر زحمت دارد تا دقت خروجیها به سطح قابل قبول برسد. گفته بودم که برنامه‌ای دارم برای آن که علاقمندان گنجور را در این کار به همیاری دعوت کنم و با استفاده از مشارکت آنها سرعت و دقت گسترش دامنهٔ داده‌ها افزایش یابد.

الان، طرح ساده‌ای آماده کرده‌ام برای آن که به کمک آن این امر را محقق کنم. علاقمندان با مراجعه به این نشانی می‌توانند با بازبینی خروجیهای OCR به گسترش دامنهٔ داده‌های گنجور کمک کنند. سیستم طراحی شده بر اساس تعداد رأیهای کاربران به متون کار می‌کند و نهایتاً با غربال پررأی‌ترین گزینه‌ها خروجیها را تولید خواهم کرد. اگر اشتباه کردید: اشتباه تایپی یا انتخاب اشتباه، نگران نباشید! علاقمندان دیگر نیز خروجیها را می‌بینند و اشتباه شما را با رأیهایشان به متون درست‌تر تصحیح می‌کنند. فقط لطفاً در صورتی که صفحه‌کلید فارسی ندارید در این کار مشارکت نکنید! ورود متون به صورت فارگلیسی هیچ کمکی نمی‌کند.

بازبینی چشمی خروجیهای OCR

فعلاً خروجیهای باقیماندهٔ جلد اول غزلیات بیدل دهلوی در این سیستم در دسترس قرار دارند و به زودی باقیماندهٔ دیوان قاآنی را نیز در این سیستم در معرض بازبینی علاقمندان قرار می‌دهم.

210 فکر می‌کنند “سیستم بازبینی چشمی خروجیهای او.سی.آر

  1. هادی کاف

    فقط به نظر من خیلی بهتر می شود اگر برای بازبینی، یک بیت کامل را قرار دهید و نه یک مصرع. و اسم شاعرش را هم بنویسید. اینطوری به نظرم بچه های بیشتری کمک می کنند. چون انگار آدم دارد شعر می خواند.

  2. شیرین شمس

    خیلی عالیه امروز اولین روزی که این سایت به من معرفی شده و کلی از ان لذت بردم از تمامی کسانی که برای کار زحکت کشیده اند متشکرم

  3. مهدیه

    درود بر شما.
    خرسندم که منم می تونم کاری برای این سایت انجام بدم.
    در این روزگار پر ملال تنها ورطه ی فرار ادبیات و شعر هست.
    زنده باد ادبیات ایران
    زنده باد ایران و ایرانی

  4. حنان

    بسیار سایت عالی دارید. خصوصا برای ما که پشت کامپیوتر فرصت کتاب خواندن نداریم. اگر خواستار مشارکت باشید من و دوستان در حد توان و با کمال میل در خدمتیم.

  5. مسعود

    سلام عزیزان
    واقعا شاد شدم دیدم که چنین کار ارزشمندی انجام شده
    رشته تخصصی من شیمیه و لی کارتون آنقدر ارزش داره که همه رو جذب کرده.
    موفق باشید

  6. آوا

    سلام…
    ممنون واسه اين كار ارزشمند… خيي ناراحتم كه چرا دير اينجا رو پيدا كردم… مهمون هميشگيتونم. كارشناس زمين شناسي هستم اما علاقۀ وافري با ادبيات دارم…
    يا علي

  7. منصورگروسي

    با عرض سلام

    ايده اي زيبا و با زحمت بسيار . كه اميد است موفق باشيد

    اينجانب هم در حد توانم در خدمتتان خواهم بود

    باشد كه فرهنگ زيباي و والاي ايران زمين و زبان شيواي فارسي بدست تواناي شمايان پرورده تر گردد

  8. فرهاد

    سلامت را چه خوش گفتند پاسخ
    یاران بس وفادارند

    کارتون کاملاً قابل تقدیر و تمجید
    حتماً کمک میکنم

  9. یگانه

    اگه تصویر یک بیت باشه این کار لذت بیشتری داره.
    امکانش هست که تصویر رو از یک مصرع به یک بیت تغییر بدید؟

  10. مهدی

    با سلام ودرود
    ضمن تشکر از زحمات جناب عالی از اینکه اینچنین مجموعه بی نظیر ادبیات و عرفان را جمع آوری کردید سپاسگزارم.
    نظر به اینکه در اکثر موارد در مورد حرف ” أ ” دچار مشکل هست میتوانید به تصحیح کنندگان اعلام فرمایید تا از کلید shift-n استفاده نمایند.
    با تشکر فراوان از کوشش و زحمت شما
    در پناه مولا

  11. حمیدرضا

    @یگانه:
    نه، متأسفانه امکان نداره، عموماً شعرها به صورت ستونی بازشناسی شدن، یعنی مصرعهای اول همشون با همن، مصرعهای دوم همشون با هم و وقت آپدیت با نگاه باید ستونهای متناظر رو پیدا کنم و ترکیب کنم.

    @مهدی:
    همچنان که با ایمیل خدمتتون گفتم، سعی می‌کنم اگه فرصتش پیش بیاد یه راهنما برای صفحه‌کلید درست کنم تا دوستان بتونن کاراکتر درست رو تایپ کنن.

  12. م . شیرازی

    سلام خسته نباشید که واقعا کار سترگی انجام داده اید تا محققین و نیازمندان خیلی آسان با کلید وازه ای به آنچه مورد نیازشان است دسترسی سهل و آسان داشته باشند .
    با کمال احترام

  13. پدرام

    بسیار عالی، تو این چند سالی که با اینترنت کار میکنم اولین باره که واقعا دوست دارم به یه سایت کمک کنم، چون گنجور فوق العاده است. هر قدر که در توانم باشه در خدمتم.

    خیلی وقت بود که می خواستم ازت(ازتون) تشکر کنم! واقعا دست مریزاد.

  14. سیمین

    سلام . کارتون فوق العاده است ، من که با دیدین سایتتون واقعا متعجت و خوشحال شدم . انشاالله در این مسیر موفق باشید .امیدوارم بتونم در این حرکت زیبا کمکی انجام بدم.
    خداوند خیر دنیا و آخرت رو نصیبتون کنن.

  15. کاوه

    پیشنهاد می کنم متن ها از یک تک مصرع به چیزی برسه که برای کسی که داره می خونه تا تصحیح کنه هم متن قابل استفاده باشه و از اون یه بهره ای ببره.

  16. حمیدرضا نویسنده

    @کاوه
    امکانش وجود نداره (اطلاعات کافی در مورد ارتباط مصاریع وجود نداره و ارتباط مصاریع با یه بازبینی چشمی در مرحلهٔ پایانی کار مشخص میشه).

  17. ناشناس

    چنانچه در قسمت اصلاحات به جای مصرع بیت اورده شود برای مصحح لذت بیشتر تاثیر اموزشی بیشتر علاقه بیشتر وبالطبع انگیزه وسرعت عمل بالاتر میرود خواهش میکنم امتحان کنید با تشکر .عادله

  18. افشین

    نکته ای به نظرم می رسه که فکر می کنم لازمه زودتر بهش توجه بهشه چون بعد واقعا راه برگشتی نیست

    یکی از مسائلی که به نظرم اصلا بهش توجه نشده، رسم الخط هست.
    مثلا در موارد متعددی از اصلاح دیدم که نیم فاصله ها حذف و به جای اون از فاصله استفاده شده است. که جالب اینجاست این تغییر به عنوان اصلاح و تصور می کنم از طرف افرادی مثل من که در حال بررسی مصراع ها هستند صورت گرفته.
    هرچند که این اشتباه به شدت در رسم الخط چاپی و انلاین زبان فارسی وجود داره و کمتر کسی ازش اطلاع داره و بهش توجه می کنه. اما به نظرم بد نیست با یک کارشناس و متخصص مشورت کنید و حالا که کار چنین با ارزشمندی در جریان هست طوری پیش رود که خروجی هم از استانداردهای لازم برخوردار باشه

  19. جلالدین

    با سلام و خسته نباشید.
    کار بسیار ارزشمند و جالبی انجام می دهید. اطاله ی سخن بیهوده خواهد بود اگر محسنات این کار را به شمایان که خود حتما واقف بدان هستید مکرر عرض کنیم. فقط بیان ان نکات را در جهت استناد پذیر تر شدن و بهبود کار عرضه میدارم.
    ۱- نام نسخه ی استفاده شده را ذکر کنید تا با توجه به نسخه بدل های موجود نکات اصلاحی ومرجهات را بیان کنیم.
    ۲ – در صورت نیاز کتبی را که به نسخ عکسی (pdf) آن دسترسی ندارید اعلام کنید تا در صورت دسترسی برای شما عزیزان ارسال کنیم . مثلا کتبی مانند غزلیات بیدل چاپ کابل یا تحفه ی خاقانی چاپ مصر که بهترین نسخ هستند را با هزینه ای بالا تبدیل به pdf کرده ام که موجود است.
    در نهایت منتهای مراتب سپاس مارا پذیرا باشید.
    جلالدین عزیزی

  20. حمیدرضا نویسنده

    @افشین:
    در مورد رسم‌الخط، مشکلاتی وجود داشته و داره از جمله این که سیستم OCR مورد استفاده از لحاظ تشخیص نیم‌فاصله و فاصله اشکالاتی داره، در بعضی موارد هم مشکل از نرم‌افزار OCR نیست و مصرعها توی نسخهٔ چاپی برای این تراز بشن کلمات درشون فشرده چاپ شدن و فواصلی که در اصل فاصله هستن رو سیستم OCR نیم‌فاصله تشخیص داده. از طرف دیگه همهٔ تلاش من بر این بوده که سیستم بازبینی تا حد امکان ساده باشه و از گذاشتن محدودیتهایی که میزان مشارکت رو کاهش می‌ده خودداری کردم. تصور من این بوده که گذاشتن قواعد سختگیرانه باعث میشه دوستانی که می‌تونن با صرف دقایقی در روز به پیشبرد کار کمک کنن، خیرخواهانه، به دلایلی از جمله عدم تسلط کافی بر صفحه‌کلید، از مشارکت خودداری کنن و این ضررش بیشتر از فایده‌شه. در گام اول تصحیح غلطها مهمتره. اما در کل، من توی فکرم بودم که یه راهنمای رسم‌الخط صحیح به همراه راهنمای تایپ کاراکترهای خاص روی صفحه‌کلیدهای مختلف رو اضافه کنم و اگه فرصت و حوصله‌ش فراهم بشه این کار رو می‌کنم.

  21. حمیدرضا نویسنده

    @جلالدین:
    ۱- مشخصات نسخهٔ استفاده شده برای بیدل در صفحهٔ منابع آمده:
    http://ganjoor.net/sources/bidelocr
    ۲- متأسفانه با امکانات فعلی امکان مقابلهٔ نسخ مختلف وجود ندارد (اگر منظور شما این است)، اما برای شاعرانی که هنوز به گنجور اضافه نشده‌اند ارسال تصویر از کتب چاپی جدید که حداقل با رزلوشن ۳۰۰ نقطه بر اینچ اسکن شده باشند و فونت آنها یکی از فونتهای لوتوس، نازنین، زر، میترا، هما، یکان، کریم، بدر، کامپست، یاقوت یا احیاناً تیتر و ترافیک باشد (قابل OCR باشند) می‌تواند برای استفاده در مراحل بعدی کار مفید باشند. ارسال تصویر نسخ خطی یا چاپ سنگی چندان سودی برای این کار ندارد.

  22. صادقی

    با اهداء سلام و احترام
    من به تازه گی با سایت شما آشنا شدم، پیشنهاد می کنم متن کامل اشعار را در اختیار بینندگان قرار دهید، به این ترتیب بهتر می توان واژه درست را یافت.
    با تشکر از زحمات شما

  23. رحیمی

    با سلام
    دم شما گرم
    کار بسیار جالبی است و نتیجه با ارزشی در پی خواهد داشت
    لینک این سایت برای دوستان ارسال شد.
    امیدوارم همراه در راه اعتلای ادبیات پارسی به کار گرفته شود و نه چیز دیگر.
    موفق باشید.

  24. خسروخان

    سلام درباره ریاضت اشعار ی مولانا فرموده خواستم بدانم در کجاست ممنون میشم زحمت کشیدید خسته نباشید.

  25. mreza

    بسیار عالی
    همه چیز در این وبسایت عالی هست و من هم به نوبه ی خودم در این طرح شرکت میکنم
    خسته نباشید

  26. احسان

    دو تا سوال دارم:
    ۱- در مواردی که متن اصلی پانویس داشته و شماره پانویس در تصویر دیده می‌شه، باید شماره را حذف کرد یا خیر؟ من به یک مورد برخوردم و حذف کردم.

    ۲- قراره نهایتا چند دور بازبینی انجام بشه؟ از این بابت می‌پرسم که الان که مرحله سوم بازبینی هستیم، هنوز اشتباهات اصلاح‌نشده خیلی واضحی در متن‌ها دیده می‌شه.

  27. حمیدرضا

    @احسان:
    اول یه توضیح بدم در مورد مرحله‌ها، منظور من از مرحله‌ها توی تازه‌های گنجور دورهای جدیده، توی مرحلهٔ اول یا همون دور اول قسمت اعظم جلد اول غزلیات بیدل و کل قصاید قاآنی بازبینی شد، توی مرحلهٔ دوم جلد دوم غزلیات سوم بازبینی شد و الان توی مرحلهٔ سوم غزلیات قاآنی داره بازبینی میشه. منظور این که هر مرحله تصاویرش جدیدن و توی مراحل قبل دیده نشدن، غزلیات بیدل الان کارشون تموم شده و برای واضح‌تر شدن مطلب توی مرحلهٔ دوم (جلد دوم غزلیات بیدل) تقریباً همهٔ تصاویر سه بار دیده شدن، کارش تموم شد و الان خروجیها توی سایته. توی مرحلهٔ سوم یا همون غزلیات قاآنی تصاویر دارن برای اولین بار دیده میشن و توی هفته‌های اول عموم تصاویر یا دیده نشده یا یک بار بازبینی شدن. کار این مرحله هم وقتی تموم میشه که سه بار تقریباً همهٔ تصاویر دیده بشن. آمار روزانه تقریباً نشون میده که تا کجا پیش رفتیم:
    http://v.ganjoor.net/verification_results/stats
    حدوداً ۹۰۰۰ تصویره که باید جمع این آمار روزانه سه برابر این عدد بشه تا این مرحله رو هم تموم کینم.
    در مورد دقت، خودم هم دیده‌م، کلاً توی غزلیات قاآنی دقت بازشناسی OCR شدیداً پایین بوده، نوع اسکنری که باهاش تصاویر این مرحله رو اسکن کرده‌م متفاوت بوده و به جای تصاویر رنگی از تصاویر دوسطحی استفاده کردم که مشخصه کار درستی نبوده، اما خوشبختانه آمارش زیاد نیست. یادم نمیاد ولی امیدوارم در مورد ملک الشعرای بهار که توی مرحلهٔ بعدی کاره این اشتباهات رو نکرده باشم چون حجم اون کار بالاست.
    در مورد پانویسها، اگه راهی برای حذف سریعشون از ورودیها بود این کار رو در مورد قاآنی می‌کردم، یعنی حداقل در گام اول قصد ندارم اینها رو وارد سایت کنم، زحمات بعدی دارن. به همین لحاظ شاید صرف وقت زیاد در موردشون چندان مفید نباشه هر چند با توجه به انرژیی که روشون گذاشته میشه وظیفهٔ منه که از خروجیهای اونها استفاده کنم اما این کار رو برای زمانی می‌گذارم که فرصت بیشتری داشتم.
    در این موارد، من خودم که تصحیح می‌کنم طبق سلیقهٔ خودم عمل می‌کنم، با توجه به این که وفاداری به متن برای شعرها فقط مهمه شاید عدم وفاداری یا حتی خلاصه‌نویسی در مورد خطوط مربوط به حاشیه‌ها مفیدتر باشه و کار رو سریع‌تر تموم کنه.
    نهایتاً، یک بار دیگه به سهم خودم از شما و دوستانی که در این کار مشارکت می‌کنید و کمک می‌کنید تا آثار ارزشمند کذشتگانمون آسون‌تر در اختیار همه قرار بگیره تشکر می‌کنم.

  28. مرتضی

    سلام
    خیلی کار خوبی بود ، من از نرم افزار گنجور استفاده میکنم اما اولین بار هست که به طور اتفاقی متوجه شدم گنجور سایت هم داره. منم کمک کردم و به دوستانم هم اطلاع میدم کمک کنن

    یا علی مددی

  29. سمانه

    سلام با تشکر از کار با ارزشتون توضیحات برای من کافی نبود. من خودم هم میتونم شعر اضافه کنم یا برای همکاری باید اشعار رو از شما بگیرم؟ اگر خودم میتونم اضافه کنم باید اول فایل پی دی اف بسازم بعد تو سایت شما تایپ کنم؟ میشه توضیح بیشتر رو به ای میلم بفرستین؟ ممنونم

  30. الهه

    سلام
    من تقریبا هر روز تا حدی که فرصت داشته باشم تصحیح می کنم
    آدرس و مشخصات سایت و توضیحات رو به همکاران خودم هم دادم که هر روز به میزانی که می تونند مشارکت داشته باشند.

  31. رضا

    سلام
    كار خيلي خوبيه و موفق باشيد.
    من هم دارم كمك ميكنم فقط يه سئوال دارم.
    آيا فاصله ها بين كلمات نبز بايد رعايت شود يا خير مثلا :
    ۱- صد مرد
    ۲- صدمرد
    (به معني يكصد نفر مذكر) آيا هر دو مورد درست است و يا بايد مانند مورد شماره ۱ بين كلمات “صد” و “مرد” فاصله بگذاريم؟ ازاين موارد زياد پيش مي آيد كه تمامي متن درست است ولي فاصله بين كلمات رعايت نشده.

  32. سروش

    سلام

    آقا دمت گرم!

    فقط یه نکته: کاش یه دکمه‌ای برای undo می‌ذاشتی. من داشتم چند تا بیت رو ویرایش می‌کردم که به طور اتفاقی روی یکی کلیک کردم که اشکال نیم‌فاصله‌ای داشت (روم به دیوار) الان احتمالاً درست نشده‌اش رفته روی پایگاه دادهٔ شما و حالا من حسابی عذاب وجدان گرفتم.

  33. حمیدرضا نویسنده

    @سزوش:
    نگران نباش، من خودمم از این کارا کردم و می‌کنم. نفر بعدی درستش می‌کنه، نفر بعدتر درست‌ترش رو تأیید می‌کنه، حل میشه.

  34. میترا

    ممنون
    من هم تا جایی که بتوانم مشارکت خواهم کرد . فقط در اعداد گذاری کمی مشکل دارم . اعداد ، فارسی تایپ نمی شوند

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.