سیستم بازبینی چشمی خروجیهای او.سی.آر

پیش‌تر اشاره کرده بودم که قصد دارم به کمک OCR دامنهٔ داده‌های موجود در گنجور را گسترش دهم و کار را هم با اضافه کردن کتاب کوچکی از سنایی غزنوی، قسمتی از غزلیات بیدل دهلوی و چند قصیده از قاآنی شروع کرده بودم.

قبلاً هم گفته بودم که اضافه کردن اشعار با استفاده از OCR، غیر از امکانات و زمانی که برای اسکن و اجرای پردازش OCR روی ورودیها و دریافت خروجی نیاز دارد نیاز به یک کار چشمی پر زحمت دارد تا دقت خروجیها به سطح قابل قبول برسد. گفته بودم که برنامه‌ای دارم برای آن که علاقمندان گنجور را در این کار به همیاری دعوت کنم و با استفاده از مشارکت آنها سرعت و دقت گسترش دامنهٔ داده‌ها افزایش یابد.

الان، طرح ساده‌ای آماده کرده‌ام برای آن که به کمک آن این امر را محقق کنم. علاقمندان با مراجعه به این نشانی می‌توانند با بازبینی خروجیهای OCR به گسترش دامنهٔ داده‌های گنجور کمک کنند. سیستم طراحی شده بر اساس تعداد رأیهای کاربران به متون کار می‌کند و نهایتاً با غربال پررأی‌ترین گزینه‌ها خروجیها را تولید خواهم کرد. اگر اشتباه کردید: اشتباه تایپی یا انتخاب اشتباه، نگران نباشید! علاقمندان دیگر نیز خروجیها را می‌بینند و اشتباه شما را با رأیهایشان به متون درست‌تر تصحیح می‌کنند. فقط لطفاً در صورتی که صفحه‌کلید فارسی ندارید در این کار مشارکت نکنید! ورود متون به صورت فارگلیسی هیچ کمکی نمی‌کند.

بازبینی چشمی خروجیهای OCR

فعلاً خروجیهای باقیماندهٔ جلد اول غزلیات بیدل دهلوی در این سیستم در دسترس قرار دارند و به زودی باقیماندهٔ دیوان قاآنی را نیز در این سیستم در معرض بازبینی علاقمندان قرار می‌دهم.

210 فکر می‌کنند “سیستم بازبینی چشمی خروجیهای او.سی.آر

  1. حمیدرضا

    @پایه ثابت گنجور:
    به سهم خودم از تلاش شما تشکر می‌کنم و عذرخواهی می‌کنم بابت این که فرصت پاسخگویی به تمام اظهار محبتهای شما فراهم نمیشه، آمار تفصیلی رو فرصت بشه در دسترس می‌گذارم.
    شاد و پیروز باشید.

  2. مجید ب

    کار هارو که بدن دست کاردونش همه چی درست میشه…
    مثل شما بروبچه های گنجور

    کارتون درسته… حرف نداره

    بابت خدمات ارزندتون ممنون

  3. سپهر

    آقا من که معتاد این تصحیح کردن شدم،روزی حداقل ۱۰۰ تا!
    خیلی امکان خوبیه و تا جایی که بتونم کمک میکنم.

  4. پایه ثابت

    گنجور توی گوگل پلاس صفحه نداره؟ خیلی واجبه ها! این صفحه زیادی سنگین میشه. کلا دوستان یه جایی واسه دور هم جمع شدن داشته باشن بهتره. پتانسیل زیادی توی شبکه های اجتماعی هست که میتونه به کار بازبینی خیلی کمک کنه. اگه وقت کافی ندارید برای اینجور کارا سعی کنید یه جوری تقسیم کار کنید. الان همه کارها رو تنهایی انجام میدید؟ خوب سخته دیگه!

  5. سین

    سلام
    این روش خیلی سخته
    اگر مصرعها به ترتیب بیاد راحت تر میشه کار کرد.
    یا اینکه حداقل بیت بیت باشه.

    سپاس

  6. مصطفی

    سعی میکنم کمک کنم،فقط اگر امکان داره یه قسمتی برای نام یا پست الکترونیکی قرار بدید تا از میزان مشارکت افراد آماری برای خودش و دیگران حاصل بشود.
    اینطوری هم تشویقی برای مشارکت هست هم اینکه چه کسایی بیشترین تلاش رو انجام دادن ،و هم از تعداد دوستداران و مشارکت کنندگان یه آمار برای بازدید کننده ها به دست میاد ، البته زحمت اصلی برای توسعه دهنده های نرم افزاره
    ممنون….

  7. ساسان

    سلام
    واقعا کارتون خیلی خوبه
    تنها چیزی که برامون مونده همین زبان فارسی یه
    تاجایی که بتونم کمکتون می کنم

  8. جوملا

    @پایه ثابت گنجور:
    به سهم خودم از تلاش شما تشکر می‌کنم و عذرخواهی می‌کنم بابت این که فرصت پاسخگویی به تمام اظهار محبتهای شما فراهم نمیشه، آمار تفصیلی رو فرصت بشه در دسترس می‌گذارم.
    شاد و پیروز باشید.

  9. حمید رضا ابی

    سلام. به نظر من هم روش خیلی سختیه … از آنجا که تصاویر تنها دورنگ سیاه و سفید هستند شاید بتونید از ویرایشگر های تصویری اتومات بهره بیشتری ببرید. خواهشن در مورد OCR مفصل توضیح بدید تا دوستان بتونند با نظراتشون بیشتر کمکتون کنند.

  10. نيما

    من تا جايي كه وقت كنم به اين سايت سر ميزنم تا بتونم سهم كوچكي داشته باشم تو اين پروژه بزرگ
    خيلي كارتون درسته

  11. ع.ع

    سلام
    خیلی خوب است ، حتما کمکتان می کنیم ولی چند مشکل:
    ۱) ممکنست بعضی وقت ها به صورت سهوی ، موردی را تایید کنیم و امکان تصحیح آن نیست
    ۲) اگر یک شعر به صورت کامل باشد ، انگیزه بیشتر است ، چون هم از خوان شعر لذت می بریم و هم یک وظیفه اجتماعی را انجام می دهیم
    ۳) امکان نظر برای کاربران حتی با توجه به عکس ارائه شده باشد ،چون بعضی وقت ها همان شعرهای تایپ شده هم مشکل دارند و باید تصحیح شوند
    ۴) به نظر اگر افرادی بخواهند با نام کاربری هم وارد شود بهتر باشد و کار شما برای تصحیح نهایی با توجه به سابقه ایشان راحت تر است

  12. آ. ب.

    با سلام

    بسیار کار خوبی انجام شده فقط اگر این نرم افزار رو به صورت CAPTCHA در اختیار سایت‌های ایرانی یا خارجی قرار دهید به دلیل رایگان بودن و امنیت بالاتر هم سایت‌های ایرانی از آن حمایت می‌کنند هم به توسعه کار شما عزیزان کمک می‌شود. کاری که گوگل الان سال‌هاست داره از آن استفاده می‌کند

  13. احمد شجاع الدین

    سلام واقعا خسته نباشید

    بنظرم کارتون خیلی عالیه، مخصوصا او سی آر. من یک علاقه مند به هوش مصنوعی هستم و قبلا در باره او سی آر فارسی بک کارهای خانگی انجام دادم. با توجه به علاقه زیادی که به ادبیات مون دارم. خوشحال میشم اگر کمکی از من بر بیاد. (ایمیلم رو وارد کردم اگر امری داشتید)

  14. کیوان

    درود
    گمان مبر که به پایان رسید کار مغان
    هزار باده ناخورده در رگ تاک است
    بسیار سپاسگزار از ارزش و وقتی که برای این کار ستوده گذاشتید. ادب پارسی بیش از اینها سزاواری دارد. این دریای بزرگ ادب و مینو تشنگان فراوانی از سراسر گیتی دارد. این گامی تاثیر گذار خواهد بود.
    درخواستی داشتم و آن این است که چه بهتر بود امکانات بیشتری برای جستجوی پیشرفته میگذاشتید. برای نمونه میخواهم به یک گرهی اشاره کنم که میباید گشوده شود. من هنگامیکه یک واژه برای نمونه ” مرد” را جستجو میکنم ممکن است با واژه های “مردن” “مردانه” “امرد” “مرده” و جخد با چیزی مانند “کمر در ..” که مر از کمر و د از در را که هر یک برای واژه ای ست روبرو شوم چرا که مرد در میان همه آنها هست. از شما خواستار پیراست این ایراد هستم
    با سپاس

  15. نیما

    سلام و درود

    حرکت فوق العاده ای هست ، حتما در زمانهایی که فرصت داشته باشم کمکتون میکنم .

  16. طرفدار برنامه

    سلام .
    خسته نباشید ، برنامه ی خیلی محشری هست .
    فقط یک سوال داشتم .

    شما به زودی یک دیتابیس بسیار بسیار کامل و OCR بسیار قوی ای پیدا خواهید کرد !
    آیا امکانش هست که یک API یا یک حق اشتراکی برای استفاده از این OCR فراهم کنید ؟
    مثلا اگر کسی علاقه مند بود برنامه ای بنویسه با کمک OCR شما … تحت چه لیسانسی اجازه ی استفاده از این OCR رو بهش میدید ؟
    اصلا امکانش هست ؟
    ممنون

  17. حسن تفرشی

    سلا و خسته نباشید ایده بسیار خوبی است و ممنون از کاری که دارید انجام می دید اما یک پیشنهاد داشتم .
    پیشنهاد می کنم این سیستم رو تبدیل به یک کپچا کنید که سایت های وب فارسی بتونن ازش استفاده کنند و در عین حال دیتا بیس شما سریعتر تکمیل بشه همانطور می دونید کپچا یک سیستم اطمینان از انسان بودن کاربری که قصد لوگین دارد می باشد .
    برای هر گونه اطلاعات جانبی و نیاز خوشحال می شم همکاری داشته باشیم 🙂

  18. مریم فرادی

    سلام،
    می تونم بپرسم سیستم OCRی که استفاده می کنید، چی هست؟
    و اینکه آیا سیستم open access هست؟
    ایده کراودسورس کردن نتایج عالی بود.

  19. رها

    درود
    و سپاس از سایت خوبتون. نظر به اینکه اغلب برای جستجوی اشعار به گنجور مراجعه می کنم وظیفۀ خودم می دونم دینم رو به این طریق هر چند ناچیز ادا کنم

  20. سید محمد رضا شهیم

    سلام
    از گذشته وستدار کارهاتون بودم و هستم
    متاسفانه سری جدید ocr غلطهای فاحشی دارد
    مثلا «این» را نوشته بود۱-۱۲
    یا تلاش را نوشته بود تلافمن
    که در گذشته اینقدر غلط نداشت

    خواستتم تذکر بدهم شاید از تنظیمات نرم افزارتون باشه

    تکمیل اخرین مجموعه هم تبریک میگم

  21. حمیدرضا

    @سید محمدرضا شهیم:
    از لطف جنابعای سپاسگزارم.
    مرور سطحی روی کیفیت خروجیها داشته ام و متأسفانه این مرور من را به این نتیجه رسانده بوده که کیفیت خوب است. تغییر تنظیمات و خروجی مجدد گرفتن الان خیلی مقدور نیست. امیدوارم کیفیت اینقدرها که شما می فرمایید بد نباشد و موارد مشکلدار مربوط به قسمت کوچکی از خروجیها باشد و نهایتا بتوانیم روی بازبینیها برای بهبود کیفیت حساب کنیم.

  22. سید محمد رضا شهیم

    سلام
    هاء و یاء کوچک روی آن در صورتی که برنامه به درستی تشخیص دهد به صورت «ة» نمایش داده میشود در حالی که باید به صورت «هٔ» باشه، یعنی دو کارکتر جداگانه
    البته این کارکتر «ة» آنچنان که خودتان بهتر میدانید در خیلی از فونت‌های فارسی به صورت «هٔ» نمایش داده می‌شود
    خواستم بدانم به خاطر فونت سایت این مشکل پیش آمده یا باید تغییر کند
    چون این دیتابیس در نرم‌فزارهای مختلف و فونت‌های مختلف مورد استفاده است

  23. سید محمد رضا شهیم

    یک سوال داشتم و پیشنهادی

    اینکه هر خط چندبار بازبینی میشود؟

    و در هر حالت بهتر است در بخش آمار تعداد خطوطی که در کل باید بازبینی شود و آنچه شده و مانده را در هر مرحله بنویسید
    ممنون

  24. امیر

    سلام،
    تا جایی که من دقت کرده‌ام، نیم فاصله (Ctrl+Shift+2) کمتر توسط دوستان استفاده می‌شود.
    اگر آموزشی داده شود، بد نیست.
    عزّت زیاد

  25. صدرا

    برای بنده ی حقیر سوالاتی، طی مشارکت در این امرِ نیک پیش آمد که خوشحال می شوم پاسخی برای آن ها بیابم.
    این حرکت بسیار پسندیده است، اما آیا دواوین انتخاب شده با مشورت از اساتید بزرگ گزینش شده اند یا خیر، زیرا دیوان هر شاعر بعضاً چند نسخه ی تصحیح شده دارد.
    سوال دوم در مورد مشارکت است، با نهایت احترام به مشارکت کنندگان گرامی و عزیز، آیا به نظر شما این کار به تخصص احتیاج ندارد؟
    این متون با توجه به استفاده گسترده از فضای اینترنت، مرجع و منبع بسیاری از پژوهش ها قرار خواهد گرفت، کوچکترین خطایی در تصحیح متون باعث بروز فاجعه در امری پژوهشی می شود و خیانتی است به گذشتگان و آیندگان…
    برای مثال بعضی از مخاطبان با تکلفات و صعوبات متون آشنا نیستند، متن ادبی سرشار از صناعات ادبی از قبیل بیان و بدیع است، همچنین بلاغت و واژه شناسی و زبانشناسی حداقل نیاز این کار است، بعضی از ابیات عربی هستند و بدون اطلاع از معنا و کارکرد آنها نمی توان تصحیحی اعمال کرد، همچنین بعضی از دوستان متذکر شدند که بهتر است ابیات یک شعر پشت سر هم برای تصحیح ارائه شوند، از این جهت که مصراع اول معمولاً در ارتباط با مصراع دوم صاحب معنا می شود، در مواردی نظیر استفاده شاعر از صنایع ایهام ( تبادر، تناسب، ترجمه و … ) به هیچ وجه قابل تصحیح نیستند.
    ذکر این نکته مهم است که در کتب و دواوین چاپی نیز اشتباهات بسیاری صورت می گیرد که این کار می تواند با کمک متخصصین این حوزه به نحوی عالی تصحیح شوند و از نظر مراجع علمی قابلیت اعتبار پیدا کند که قطعا نتیجه ای بسیار متفاوت خواهد داشت…

  26. گروه ماه

    سلام صدرا،
    سخن شما صحیح است اما کو حمایت و کو برنامه ریزی از سمت مسولان فرهنگی کشور؟!
    گنجور توسط آقای محمدی بزرگوار و به صورت خودجوش و بدون حمایت از هیچ سازمانی اداره می شود. درآمد حاصل از کمک های مردمی نیز آنقدر ناچیز است که نمی توان توسعه زیادی روی آن انجام داد.
    به نظر بنده همین وضعیت گنجور (حتی با همین ایرداتی که شما فرمودید) برای زنده ماندن فرهنگ و ادب پارسی اقدامی بسیار قابل ستایش است.

  27. بهنام

    سلام
    نشانه‌هايي كه مربوط به متن اصليه و با ocr درج شده بمونه يا حذف بشه؟ مثل شماره ارجاع پاورقي يا پرانتز تكي

  28. s.m.m

    سلام
    اینکار خوبه ولی خیلی خیلی زمانبره
    بنظرم اگه فایلو بدین افیس ۲۰۱۶ بهتر و زودتر ویرایش میشه تا انجوری
    نظرتون چیه البته اگه ویراستار با افیس اشنایی داشته باشه حتی کم؟!!!

  29. رضا

    یک سوال:
    با جملاتی که عددی در کنار آنها می باشد (که احتمالاً مربوط به پانویس ها است) چگونه باید برخورد کرد!؟

    مثلاً:
    ساغر بده که آید،۴ آبی به روی کارم

    در نسخه اصلی عدد ۴ به صورت بالانویس وجود دارد، آیا در هنگام تصحیح عبارت توسط ما، باید عدد را بنویسیم یا خیر؟

  30. حمیدرضا

    @رضا:
    اعداد پاورقی باید حذف بشوند.
    البته اگر درست یادم باشد در یک پیش پردازش پیش از نهایی کردن خروجیها به لحاظ این که در اشعار فارسی عدد وجود ندارد اعداد را پاک می کنیم.

  31. حسین بدیعی

    دو پیشنهاد برای رسم‌الخط گنجور دارم.
    اولی مورد تواقف همگان است: علامت «ها»ی جمع همیشه جدایِ پیوسته نوشته شود و نه جدا و نه پیوسته. مثلاً جمع کتاب نوشته شود کتاب‌ها و نه کتاب ها و نیز نه کتابها.
    دومی مورد توافق بعضی و مخالفت برخی دیگر است. از جمله پیشنهاد داریوش آشوری است: زمان حال ساده در مصدر های بودن و هستن همیشه جدا و چنین نوشته شود؛ ام، ای، است، ایم، اید و اند. و چنین نوشته شود حتی اگر بعد کلمه‌ی مختوم به حرف صدا دار باشد. مثلاً نوشته شود؛ حسن دانا است. گرچه که خوانده شود؛ حسن داناست. این قاعده در رسم‌الخط عربی رعایت می‌شود و هیچ اشکالی هم ایجاد نمی‌کند. مثلاً تنوین و نون ساکنه که بلافاصله پیش از حروف ی، ر، م، ل، و و یا ن (یرملون) قرار گیرد در آن ادغام می‌شود و اگر پیش از ب قرار گیرد میم تلفظ می‌شود ولی شکل نوشتاری خود را حفظ می‌کند و هیچ عربی که سواد داشته باشد هم آن را اشتباه تلفظ نمی‌کند.

    یک پیشنهاد دیگر: اشعار موزون و مقفای زبان فارسی برای درست خوانده شدن احتیاجی به ویرگول ندارند و این علامت رسم‌الخط شعر را خشن کرده آن را از شکل می‌اندازد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.