سیستم بازبینی چشمی خروجیهای او.سی.آر

پیش‌تر اشاره کرده بودم که قصد دارم به کمک OCR دامنهٔ داده‌های موجود در گنجور را گسترش دهم و کار را هم با اضافه کردن کتاب کوچکی از سنایی غزنوی، قسمتی از غزلیات بیدل دهلوی و چند قصیده از قاآنی شروع کرده بودم.

قبلاً هم گفته بودم که اضافه کردن اشعار با استفاده از OCR، غیر از امکانات و زمانی که برای اسکن و اجرای پردازش OCR روی ورودیها و دریافت خروجی نیاز دارد نیاز به یک کار چشمی پر زحمت دارد تا دقت خروجیها به سطح قابل قبول برسد. گفته بودم که برنامه‌ای دارم برای آن که علاقمندان گنجور را در این کار به همیاری دعوت کنم و با استفاده از مشارکت آنها سرعت و دقت گسترش دامنهٔ داده‌ها افزایش یابد.

الان، طرح ساده‌ای آماده کرده‌ام برای آن که به کمک آن این امر را محقق کنم. علاقمندان با مراجعه به این نشانی می‌توانند با بازبینی خروجیهای OCR به گسترش دامنهٔ داده‌های گنجور کمک کنند. سیستم طراحی شده بر اساس تعداد رأیهای کاربران به متون کار می‌کند و نهایتاً با غربال پررأی‌ترین گزینه‌ها خروجیها را تولید خواهم کرد. اگر اشتباه کردید: اشتباه تایپی یا انتخاب اشتباه، نگران نباشید! علاقمندان دیگر نیز خروجیها را می‌بینند و اشتباه شما را با رأیهایشان به متون درست‌تر تصحیح می‌کنند. فقط لطفاً در صورتی که صفحه‌کلید فارسی ندارید در این کار مشارکت نکنید! ورود متون به صورت فارگلیسی هیچ کمکی نمی‌کند.

بازبینی چشمی خروجیهای OCR

فعلاً خروجیهای باقیماندهٔ جلد اول غزلیات بیدل دهلوی در این سیستم در دسترس قرار دارند و به زودی باقیماندهٔ دیوان قاآنی را نیز در این سیستم در معرض بازبینی علاقمندان قرار می‌دهم.

210 فکر می‌کنند “سیستم بازبینی چشمی خروجیهای او.سی.آر

  1. فرهادی

    خیلی عالیه
    فقط به نظر میاد در خروجی نهایی کاراکترهای zwnj اضافی زیاد داشته باشیم.
    با توجه به تیز بینی و استعدادی که در شما سراغ دارم احتمال زیاد فکرش رو کردی ولی کار از محکم کاری عیب نمیکنه گفتم یادآوری کرده باشم.

    در ضمن اگر باز هم از این ایده های ناب به ذهنت رسید میتونی روی کمک من توی برنامه نویسیش حساب کنی.

  2. reza

    سلام خیلی جالب هست.
    این اوسی ار انلاین هست؟ اگر هست ایا رایگان هست؟ امکانش هست بیشتر توضیح بدهید؟

    شاد باشید

  3. حامد

    سلام

    خیلی عالیه فقط اگر کلی تر باشه که هم تصحیح انجام بشه هم لذت خواندن یک حکایت یا غزل هم بهش اضافه بشه واقعاً عالی میشه یا حداقل به صورت ابیات پشت سر هم باشه . خواندن تنها یک مصرع از یک شعر خیلی لذت بخش نیست حداقل به صورت بیت باشه و تصادفی هم نباشه و پشت سر هم باشه .

    خوش باشی

  4. حمیدرضا نویسنده

    @حامد:
    ترتیب مصرعها خیلی مشخص نیست، مثلاً بعضیهاشون (پشت سر هم) ستون اول یه غزلن و بعضیها پشت سر همن. باید خروجیها نهایتاً دوباره سرهمبندی بشن تا معلوم بشه. این که چند تا با هم باشن هم خیلی عملی نیست. در هر حال اگه کار بازبینی با سرعت کافی پیش بره به زودی خروجی همین کار روی سایت قرار می‌گیره و میشه به طور کامل خوندشون.

    ممنون از لطف سایر دوستان.

  5. اتابک

    به نظر من بهتره برای تشویق و ترغیب علاقه مندان سیستم کاربری طراحی شود که بتواند میزان مشارکت افراد را نشان دهد.

  6. حمیدرضا نویسنده

    @اتابک:
    خوب، کسانی که این کار رو انجام میدن نیاز به تشویق ندارن، از نتیجۀ نهایی همه استفاده می‌کنن، خصوصاً اونهایی که به ادبیات فارسی علاقۀ ویژه دارن. تا الان هم میزان مشارکت کم نبوده. احتمالاً کمی بیشتر که بگذره یه آماری در این مورد ارائه میدم.

  7. علي

    خيلي خوشم اومد
    واقعا عاليه
    ايده خوبي هم هست روش كار گروهي
    حتما كمك ميكنم
    من علاقه ام شعر هست حتما كمك ميكنم

  8. جوانه

    سلام بر شما
    من از لینک سایت p30download متوجه شدم که در سایت گزیر این خبر قرار داده شده و تا اونجا که تونستم اشعار رو تصحیح یا تایید کردم.
    ایده زیبا و جالبیست.
    در وبلاگم هم قرار دادم تا هر کس تونست تصحیح رو انجام بده.
    با سپاس و احترام

  9. هادی

    سلام

    زیر و زبر و پیش رو هم وارد کنیم؟

    ضمنا در خروجی های OCR از کاراکتر ۰۶C0 (ۀ) استفاده شده که در کیبورد فارسی استاندارد ۹۱۴۷ جایی نداره. من به طور دستی اونها رو به ترکیب حرف ه و همزه بالا ( ٔ) به اینصورت هٔ تغییر می‌دادم که فکر می‌کنم به طور خودکار از جانب شما قابل اجرا باشه.

  10. حمیدرضا نویسنده

    @هادی:
    در مورد کاراکتر «ۀ»، نهایتاً (وقت ارسال به سایت) تمام موارد این کاراکتر و همینطور ترکیب «ه‌ی» رو با ترکیب ه و همزه بالا جایگزین می‌کنم. توی سری اول مجموعه (بیدل، جلد اول) به جای این کاراکتر از کاراکتر ة استفاده شده که مناسب فونتهای فارسی بوده که این رو هم نهایتاً با همون ترکیب جایگزین می‌کنم.

    در سایر موارد (زیر و زبر و …) سلیقهٔ خودتون مهمه، من فکر کردم اگه یه سری قانون بذارم برای نحوهٔ وارد کردن متون هم کار سخت میشه و هم این که خیلی از دوستانی که با صفحه‌کلید فارسی آشنایی کامل ندارن (کاراکترهای کم کاربرد رو نمیشناسن) به نظرشون کار سخت میاد و یا خیرخواهانه برای این که احتمالاً خرابکاری نکنن بازبینی نمی‌کنن و این ضررش خیلی بیشتر از فایده‌شه. بنابراین فکر کردم اگه در این مورد سختگیری نشه در کل بهتره.

    از بقیهٔ دوستانی که در این کار مشارکت می‌کنن صمیمانه ممنونم.

  11. مستانه

    سلام و خسته نباشید. ممنون هم برای پشتکارتون برای اسکن کردن شعرها و دنبال کردن این کار عظیم، و هم برای اینکه ما رو هم در قسمتی از این پروژه سهیم کردید. حتما کمکتون میکنم و دوستانم رو هم با این پروژه آشنا می کنم.

  12. مستانه

    راستی چرا برای بعضی از مصراع ها دو خروجی OCR وجود داره؟ از دو الگوریتم مختلف استفاده شده یا به دلیل احتمال وجود گروه بندی های متفاوت بین دو واژه هست؟

  13. حمیدرضا

    @مستانه:
    ممنون از لطف دائم شما.

    نه، فقط یه خروجی OCR داریم، باقی موارد تصحیحات کاربرانه: سیستمش اینجوریه که اگه یه موردی رو کسی تا حالا بازبینی نکرده باشه یا خروجی OCRش در نظر بازبینهای قبلی درست بوده باشه فقط براش یه گزینه هست. حالا اگه کسی بیاد تصحیح کنه یا طور دیگه‌ای تایپ کنه، نظرش اضافه میشه. به طور پیش‌فرض اونی بالاتر قرار می‌گیره که تعداد رأیهاش بیشتر باشه (بیشتر کلیک شده باشه) و بین دوتا که هر دو هم رأی هستن خروجی OCR پایین‌تر قرار می‌گیره چون فرض بر اینه که کاربر نظرش ارجحه بر خروجی OCR که احتمال خطاش بیشتره. توی اون جعبۀ متنی هم ارجح‌ترین گزینه قرار می‌گیره (بالاترین دکمه) و به همین دلیل زدن Enter وقتی که جعبۀ متنی فوکوس داره با کلیک روی بالاترین دکمه همسانه و رأی اون متن رو افزایش میده.

  14. سید

    سلام
    با تشکر از این ایده ی بسیار عالی تون.
    فقط ای کاش که یه آماری هم در این صفحه قرار می دادید که مثلا چند نفر تا حالا در این طرح شرکت کردن یا تعداد مصرع های تصحیح شده تا حالا چندتا بوده. من که اگه آمار رو ببینم دلگرم تر می شم و بیشتر کار میکنم، بقیه رو نمی دونم.

  15. اتابک

    حمیدرضا جان خسته نباشی
    منظور من ایجاد پروفایل برای کاربان هست تا هر کاربر بتواند در یک فضای سالم رقابتی میزان همکاری خود را نمایش دهد. وجد یک فضای رقابت سالم خود به نوعی تشویق کاربران است.

  16. حمیدرضا نویسنده

    ممنون از لطف همهٔ دوستان.

    در مورد آمار سعی می‌کنم در فرصت مناسب یه صفحۀ مناسب‌تر بسازم. اما دوستانی که علاقه دارن آمار مشارکتها رو بدونن از این صفحه استفاده کنن که جلوی هر تاریخ میلادی تعداد بازبینیهای انجام شده رو نوشته:
    http://v.ganjoor.net/verification_results/stats
    در مرحلهٔ اول حدود پنجاه هزار تیکه تصویر برای تصحیح در دسترس قرار گرفته که با احتساب بازدیدهای تکراری از بعضی تصاویر تا به حال چیزی حدود نصف کل تصاویر مرحلهٔ اول حداقل یک بار بازبینی شدن.

  17. مريم

    با سلام، مدتها بود كه اين ايده و آرزوي انجام آن براي متون فارسي در دلم بود.اما نتوانستم فرصتي براي پرداختن به آن فراهم كنم. بسيار خوشحال شدم از اينكه ديدم هموطني به زيبايي و شايستگي اين كار را انجام داده است! اميدوارم تلاش شما الگوي بسياري از سايت هاي آنلاين اطلاع رساني دولتي و غيره قرار بگيرد.برايتان آرزوي موفقيت دارم.

  18. مريم

    ظاهرا بعضي ها به جاي تصحيح توي اشعار خرابكاري مي كنند. بهتر است امكاني اضافه شود كه روي اصلاحات قبلي گزارش خرابكاري داده شود . آدرس ايميل بفرماييد نمونه برايتان ارسال كنم.

  19. بهداد

    من واقعا از زحمات شما بسیار سپاسگذار هستم

    اما یک سوال داشتم چرا اشعار برای دانش پژوهان و نویسنده ها بصورت word چاپ نمیشود؟؟؟؟

    تا سریعتر از اشعار در جاهایی که دوست داریم استفاده کنیم؟؟؟؟

    مثلا خودمان با تغییر دادن فونت ها در جاهایی که دوست داریم استفاده کنیم

    مرسی از کار بزرگ و عجیب شما که ارزش آن از هزاران چاه نفت بیشتر هست.

  20. رضا

    این بازبینی OCR ـها شده یکی از کارهای روزمره من در اینترنت … واقعا از این کار لذت می برم…

    خیلی ممنون به خاطر این ایده جالبتون و یک تشکر هم از تمام دوستانی که این سایت و این ایده را حمایت می کنند.

  21. محمد انجوی

    با درود بر شما
    واقعاً کار ارزشمند و گرانقدری رو شروع نمودید برای شما و همه همکارانتان آرزوی موفقیت و بهروزی دارم.امیدوارم که با انجام و گسترش روزافزون اینگونه کارها ی فرهنگی شایسته و در خور تقدیر، نسل امروز جامعه ایرانی هر چه بیشتر با غنای فرهنگ این مرز و بوم و گذشتگانش آشنا گردد.
    با سپاس از شما و آرزوی موفقیتتان
    شاد باشید

  22. سودابه

    من نمي دانم چگونه بايد كمك كنم درخواست شما گويا و رسا نيست و منظور شما را متوجه نمي شوم .

    خوب بود با يك مثال ساده توضيح مي داديد .

  23. علي

    سلام
    اگر بتونين با مذاكره با فروم‌هايي كه علاقه‌مندن در قسمت log in همين صفحه را به عنوان Captcha اضافه كنين كه هر كس خواست وارد سايت بشه يك مصراع را تصحيح كنه فكر كنم آمار زياد بشه. الان سايت‌هاي زيادي (خارجي) اين كار را انجام ميدن به عنوان مثال gigapedia و سايت‌هاي ديگه‌اي كه Captcha وروديش شبيه اين سايته. الان پروژه‌هاي زيادي براي ocr كتابهاي لاتين از اين طريق در حال انجامه.

  24. MAMO

    الحق و الانصاف که به این میگن Optimization !!!

    سلام
    اگر بتونین با مذاکره با فروم‌هایی که علاقه‌مندن در قسمت log in همین صفحه را به عنوان Captcha اضافه کنین که هر کس خواست وارد سایت بشه یک مصراع را تصحیح کنه فکر کنم آمار زیاد بشه. الان سایت‌های زیادی (خارجی) این کار را انجام میدن به عنوان مثال gigapedia و سایت‌های دیگه‌ای که Captcha ورودیش شبیه این سایته. الان پروژه‌های زیادی برای ocr کتابهای لاتین از این طریق در حال انجامه.

    یه ۲۰۰ مصراعی تصحیح نمودیم تا بعد ببینیم خدا چی می خواد….. D:

  25. مريم

    واقعاً با اين سايتتون گل كاشتيد. دستتون درد نكنه. اميدوارم هر روز موفق تر از روز پيش باشيد. خوشحال ميشم اگه بتونم كمكي كنم.

  26. moh444444

    اوه آقا من پایه ام! الان کل ابیات رو جواب میدم.
    اگر بیش از این طرح هم کمکی از دستم بر میاد ایمیل بزنید! تو کار ویراستاری و این چیزا هم هستم

  27. حمیدرضا نویسنده

    ضمن تشکر مجدد از دوستانی که در این کار مشارکت می‌کنن،
    در مورد ایده‌ای که شبیه ReCaptcha هستش، من تصور نمی‌کنم تعداد دریافت کپچاهای سایتهای ایرانی در کل در حدی باشه که بشه در این مورد بهش تکیه کرد، بنابراین در مقطع فعلی فکر نمی‌کنم به درد کار ما بخوره، هر چند با توجه به این که پیاده‌سازیش نسبتاً ساده‌ست احتمال میدم در فرصتی که پیش بیاد چنین امکانی رو هم اضافه کنم.
    در مورد دوستی که فایل Word خواسته بودن، برنامهٔ گنجور رومیزی هست و پایگاه داده‌هاش هم در دسترسه، متأسفانه من وقت و امکانات لازم برای تولید خروجیهای سفارشی رو ندارم و اگر دوستی کاربرد خاصی براش داره این جور خروجیها زحمتش به عهدهٔ خودشه (ابزارها و مواد اولیهٔ لازم در اختیار هست).
    دوستی که در مورد خرابکاری گزارش داده بودن، اون مورد خاص حذف شد، اما همونطور که خدمت ایشون گفتم فکر می‌کنم در تصحیحهای آینده باید یه دکمهٔ گزارش خرابکاری هم بگذاریم. در هر حال، در حالت ایده‌آل چون فرض بر اینه که دوستان زیادی شعرها رو بازبینی می‌کنن باید این موارد خود به خود رأی کمی بگیرن و دور انتخاب نهایی برای متن درست حذف بشن.
    در مورد سیستم مدیریت کاربران و … که دوستی اشاره کرده بودن، خوب خوبه اما پیچیدگی سیستم رو افزایش میده و در ضمن کار من هم زیاد میشه که احتمالاً بهتره این کار و وقت صرف قسمتهای دیگهٔ سایت و گنجور رومیزی بشه.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.