سیستم بازبینی چشمی خروجیهای او.سی.آر

پیش‌تر اشاره کرده بودم که قصد دارم به کمک OCR دامنهٔ داده‌های موجود در گنجور را گسترش دهم و کار را هم با اضافه کردن کتاب کوچکی از سنایی غزنوی، قسمتی از غزلیات بیدل دهلوی و چند قصیده از قاآنی شروع کرده بودم.

قبلاً هم گفته بودم که اضافه کردن اشعار با استفاده از OCR، غیر از امکانات و زمانی که برای اسکن و اجرای پردازش OCR روی ورودیها و دریافت خروجی نیاز دارد نیاز به یک کار چشمی پر زحمت دارد تا دقت خروجیها به سطح قابل قبول برسد. گفته بودم که برنامه‌ای دارم برای آن که علاقمندان گنجور را در این کار به همیاری دعوت کنم و با استفاده از مشارکت آنها سرعت و دقت گسترش دامنهٔ داده‌ها افزایش یابد.

الان، طرح ساده‌ای آماده کرده‌ام برای آن که به کمک آن این امر را محقق کنم. علاقمندان با مراجعه به این نشانی می‌توانند با بازبینی خروجیهای OCR به گسترش دامنهٔ داده‌های گنجور کمک کنند. سیستم طراحی شده بر اساس تعداد رأیهای کاربران به متون کار می‌کند و نهایتاً با غربال پررأی‌ترین گزینه‌ها خروجیها را تولید خواهم کرد. اگر اشتباه کردید: اشتباه تایپی یا انتخاب اشتباه، نگران نباشید! علاقمندان دیگر نیز خروجیها را می‌بینند و اشتباه شما را با رأیهایشان به متون درست‌تر تصحیح می‌کنند. فقط لطفاً در صورتی که صفحه‌کلید فارسی ندارید در این کار مشارکت نکنید! ورود متون به صورت فارگلیسی هیچ کمکی نمی‌کند.

بازبینی چشمی خروجیهای OCR

فعلاً خروجیهای باقیماندهٔ جلد اول غزلیات بیدل دهلوی در این سیستم در دسترس قرار دارند و به زودی باقیماندهٔ دیوان قاآنی را نیز در این سیستم در معرض بازبینی علاقمندان قرار می‌دهم.

210 فکر می‌کنند “سیستم بازبینی چشمی خروجیهای او.سی.آر

  1. کامران

    با عرض سلام
    و تقدیر از کار ارزنده سایت وزین گنجور که در این از هم گسیختگی فرهنگی که اکثر جوانان دارند با لغت فارسی بیگانه و به حروف اجانب فارسی مینگارند کاری بس بزرگ و درخور تقدیر انجام میدهد

  2. مریم زمانی

    دست مریزاد بر تمامی شما ایرانیان پاک اندیش و نیک کرداری که برای کاری به این عظمت و زیبایی تلاش میکنید .
    به امید روزی که نام ایران و ایرانی آزاده بر تارک جهان بدرخشد.

  3. عليرضا

    سلام،

    يه سؤال جزئي:
    توي مصراع‌هاي مربوط به سري چهارم، بعضي از مصراع‌ها هستند كه آخرشان يه عدد (مربوط به پانوشت) وجود داره. تا حالا در مصراع‌هايي كه بازبيني كردم و اين عدد آخر آنها وجود داشت، اين عدد رو حذف كردم.

    مي‌خواستم نظر شما رو هم بدونم

  4. حمیدرضا نویسنده

    @علیرضا:
    توی سیستم فعلی وقتی که قراره متن نهایی وارد سایت بشه تمام اعداد حذف میشن. لذا حذفشون مشکلی ایجاد نمی‌کنه بهتر هم هست.

  5. عليرضا

    اين اعداد ولي يه مسئله‌ي ديگه:
    بعضي از تصاوير مربوط به خود پانوشت‌ها هستند. (اين رو خودم بعد از نوشتن كامنت قبلي ديدم)
    حذف شماره‌هاي آخر مصراع‌ها يعني حذف پانوشت‌ها. اكثر اين پانوشت‌ها مربوط به معاني كلمات عجيب و غريب در متن شعره.

    (الآن سؤال خاصي ندارم! جمله‌ي بالايي بيشتر خبريه تا پرسشي!)

  6. امیرنامجو

    احسنت به حسن کار و انجام شما

    باخواست حق قرین بود کام شما

    این گنج که گنجور نهادید به نام

    خورشید شود درآید از شام شما

    (امیر نامجو)

  7. مسعود

    دستتون واقعا درد نکنه. کار بسیار گران سنگی رو پایه نهادید. بسیار ارزشمند.
    یک پیشنهاد: نمیدونم چرا در برخی از صفحات دو متن نمایش داده میشه که فقط یکی از اونها کلمات مصرع اسکن شده رو در بر میگیره. با در نظر گرفتن این مطلب که همه دوستانی که به کار بازبینی میپردازند، مصصحح نیستند. پیشنهاد میکنم با اسکن کردن اشعار از متقن ترین منابع، از این چندگانگی جلوگیری بشه. شاید هم بتوان با ذکر مرجع از هر دو مصرع استفاده کرد. البته خودم با این چندگانگی به شدت مخالفم. در صورت عدم موافقت با نظر اینجانب و تاکید بر تصحیح اشعار از سوی مراجعین به سایت، لطفا حداقل ابیات پس و پیش نیز نشان داده شود تا دقت انتخاب افزایش یابد.
    با سپاس فراوان

  8. مونا

    کاش یه معیار مشخص برای درج شماره اه و پاورقی ها قرار بدید که همه بر اساس اونها شماره هارو بنویسن
    خیلی از ابیات و قطعات اسکن شده عدد پی نوشت دارند که ادم نمیدونه چطور بنویسه بهتره!
    مثلا گاهی وسط یک بیت یا مصرع این شماره ها هست.
    مثل این تصویر:
    http://v.ganjoor.net/005/18150.jpg
    در این لینک: http://v.ganjoor.net/images/view/110758
    که هرکس یه طور نوشته و معیار مشخصی براش نیست.
    از طرفی به نظرم چهره جالبی هم نداره وسط یک مصرع بیربط یه عدد بیاد:
    غرمی‌ (۱) رمنده بود مرا طبع و این شگفت

    بنابراین کاش توضیح بدید و بگید اصلا لزومی داره اعدادی که برای پی نوشتها و پیوستها استفاده شده تو اصلاحات نوشته بشه یا نه؟ و اگه اره چطوری باشه بهتره و کمک میکنه؟
    ممنون

  9. حمیدرضا نویسنده

    @مونا:
    اعداد و پرانتزهای میان شعرها به طور خودکار حذف می‌شوند بنابراین وارد کردن یا نکردن آنها تأثیری ندارد.
    مدتهاست که در نظر دارم راهنمایی برای این گونه موارد آماده کنم که به دلایل مختلف امکانش فراهم نشده، از دوستان بابت این مطلب عذرخواهی می‌کنم.

  10. افشین

    یه پیشنهاد
    امکانش هست که چند دکمه برای کاراکتر هایی که زیاد استفاده میشن زیر باکس ویرایش قرار بدید .. ! چون وقتی لازم میشه کاراکتری رو از صفحه کلید بزنیم وقت زیادی تلف میشه
    مثلا فاصله ،نیم فاصله، حرکه ها، ۀ ، همزه ها ..
    لطفا فاصله ی تصویر رو با قسمت ویرایش نوشته ها تا اونجایی که امکان داره کم کنید تا سرعت کار بیشتر بشه

  11. نرگس

    سلام. نمیدونم چرا هر دفعه که من صفحه بازبینی رو باز می کنم، اولین بیتی که میاد اینه “بگذار که پیش آیدش از بخت فتوری” دیگه حفظ شدم!
    فکر می کنم بیشتر از ده بار تا بحال روی گزینه درست کلیک کردم، درحالیکه شما گفتید با سه تا رای جمله درست ثبت میشه.

    راستی میتونم بپرسم دیوان بعدی چی خواهد بود؟
    یه پیشنهاد هم دارم اینکه بعد از اینکه همه شعرهای مهم اضافه شد، به اضافه کردن نثرهای معروف مثل گلستان، مناجات نامه و … هم بپردازید.
    متشکرم

  12. حمیدرضا

    @نرگس:
    احتمالاً مشکل به کش اینترنت یا مرورگر شما مربوط میشه، نشانی شروع بهتره که این باشه:
    http://v.ganjoor.net
    گلستان الان در دسترسه.
    شاعر بعدی (اسکن و OCR شده) امیرمعزی هستش ولی با توجه به مسائل پیش آمده -قضایای مهرارقام و فیلتر شدن سایت و حذف داده‌ها- شاید شاعر دیگه‌ای برای ادامه کار انتخاب بشه.
    از تمامی دوستانی که هنوز در این کار مشارکت می‌کنن سپاسگزاری می‌کنم.

  13. نرگس

    می خواستم پبشنهاد کنم اگه ممکنه امکانی به سایت اضافه بشه که نشون بده چند درصد از کتاب در حال اصلاح کامل شده. این طوری شاید هم برای قوت قلب بازبین ها خوب باشه هم برای ترغیب به ادامه کار.

  14. فرشاد

    با سلام،
    و خسته نباشید
    بسیار سپاسگزارم از زحمتی که برای فرهنگ ایران زمین می کشید.
    با اجازه شما پیشنهاد می دهم که تصحیحات نه فقط از نظر املایی که از نظر دستور خط هم صورت بگیرد. همینک بهترین فرصت است که علائم سجاوندی از قبیل {، » « . : ؟ ! } به متون کهن اضافه شود.
    در این پیوند به خوبی نحوه استفاده از علائم سجاوندی آورده شده است:
    http://sarapoem.persiangig.com/link7/sajavandadib.htm
    همچنین بهتر از قبل از درخواست از بازدیدکنندگان برای اصلاح، اندکی آموزش هم به کاربران داده شود یا دست کم به صورت پیوندی در صفحه دیگر، این آموزش در اختیار آنان گذاشته شود تا اصلاحات له بهترین شیوه صورت پذیرد.

  15. حسن

    سلام
    با تشکر از زحمات شما ،سایتتون خیلی عالیه،یعنی حرف نداره!
    یه سوال داشتم :اگه اشتباهن مصرعی را اشتباه درست اعلام کنیم چه طور آن را دوباره اصلاح کنیم.
    ممنون میشم اگه جواب دهید

  16. پارسا

    سلام من واقعا بهت زده شدم از این که یک ایرانی تا این حد توانسته در اینترنت تاثییر گذار باشد

    شما مدیر آینده بزرگترین سایت دنیا خواهید بود با آرزوی موفقیت برای شما علی رضا عافیت طلب فیزیوتراپیست

  17. محمد مهدی

    سلام.
    واقعن خسته نباشید.
    همه ی علاقمندان به فرهنگ و هنر ایرانی پشتیبان شما هستن.
    کاش می شد ترتیبی داده بشه تا دوستان وبلاگ نویس که صفحات پربازدیدی هم دارن، اینجا رو تبلیغ کنن.
    به هر صورت موفق و پیروز باشید.

  18. دکتر شاهو قهرمانی

    با سلام و تشکر
    من بعنوان یک شیفتهء شعر، این لینک گنجور رو با ایمیل فوروارد کردم برای دوستانم و ازشون خواستم که حتما در بخش بازبینی مشارکت داشته باشن.
    موفق باشید

  19. امیر رحمانیان

    با سلام
    به عنوان یک برنامه نویس ایرانی واقعا لذت بردم……
    سیستم ا سی آر هوشمندی طراحی کردید واقعا خسته نباشید

    بنده از علاقمندان به کمک در این پروژه (برنامه نویسی) هستم.
    خوشحال می شم اگه لایق بدونید و کاری از دستم بر بیاد کمکی کنم

    موفق باشید

  20. محمد

    ان شاء… من هم افتخار می کنم در این کار سهیم باشم.
    بنده ی حقیر فوق لیسانس ادبیات علوم انسانی(ان شاء… چند ماه دیگر دکترا)هستم و خوشحال می شوم به شما در این زمینه و هر زمینه دیگر کمک کنم.
    با تشکر

  21. حمید

    به نظر میرسه اصل نوشته ها هم در برخی جاها دچار اشکال تایپی باشه که اصلاح آنها الزامی به نظر میرسه،خواستم این رو گفته باشم که در توضیحات اولیه این مطلب را به مصححین گوشزد کنید که کار بهتر و درستتر از آب دربیاد
    با تشکر

  22. حسین

    عالیه. من دارم مشارکت میکنم.
    میگم چرا بعضی از کلامات هیچ فاصله ای نداره ؟ از لحاظ دستوری چطوریه؟ مثل این کلمه
    ” برگل‌کشد ” کلمه “گل “و “کشد” به هم چسبیده. چطور؟با چه کاراکتری.این درسته یا باید فاصله داشته باشه.
    راستی علامتهای دستوری چی؟مثل کاما و اینا.بذاریم؟

  23. رحمان

    سلام
    از کارتون واقعا تشکر می کنم و حتما بهتون کمک می کنم. از این اینکه به نگهداری و گسترش فرهنگ ایران کمک می کنید، خیلی خوشحالم.

  24. gelare

    yeki tozih bede nafahmidam chi shod
    yeki tozih bede nafahmidam chi shod
    yeki tozih bede nafahmidam chi shod
    yeki tozih bede nafahmidam chi shodeki toyeki tozih bede nafahmidam chi shodzih bede nafahmidam chi shodyeki tozih bede nafahmidam chi shod

    yeki tozih bede nafahmidam chi shod
    yeki tozih bede nafahmidam chi shod
    yeki tozih bede nafahmidam chi shod

  25. فرهاد ق.

    ۱. همان‌طور که می‌دانید نرم‌افزار درج ۳ (با حدود یک میلیون بیت شعر) فاقد شعرهای برخی شاعران مهم است. آثاری مانندِ دیوان ابن‌یمین فریومدی، گرشاسب‌نامۀ اسدی طوسی، پنج‌گنج (خمسۀ) امیرخسرو دهلوی، دیوان لامعی گرگانی، و… پیشنهاد می‌کنم متن‌هایی را در اولویت قرار دهید که در نرم‌افزار درج ۳ وجود ندارد تا به این وسیله مکملی برای آن نرم‌افزار باشید.
    ۲. به متون مهم منثور نیز بپردازید، به‌ویژه آن‌هایی که در نرم‌افزار درج ۳ و نرم‌افزارهای مؤسسۀ علوم قرآنی نور وجود ندارد. (درج ۳ از لحاظ متون نثر فقیر است.)
    ۳. توجه داشته باشید شعرهایی که در قالب مثنوی هستند از اهمیت بیشتری برای پرداختن برخوردارند. زیرا جست‌وجوی بیت در یک مثنوی، بدون استفاده از کشف‌الابیات و نرم‌افزار، عملاً غیرممکن است، ولی در دیوان‌ها با استفاده از حرف رَویِ (ravi) غزل و قصیده با صرف کمی وقت امکان‌پذیر است.

  26. بهروز

    با سلام و خسته نباشید.
    برنامه بسیار ارزشمند و پر محتوایی را تهیه کرده اید.
    به قدر یک ایرانی از گرامیداشت فرهنگ این مرز و بوم . بقدر یه انسان از تدوین و گرد آوری این مجم.عه ارزشمند انسانی سپاسگذارم. دست حق به همراه هتان.

  27. سعیدی

    کمک گر تو گیری ز نیکان بگیر
    ز استاد فن و ادیبان پیر
    چه خوش گفته سعدی در این رهگذار
    یکی مرد جنگی به از صد هزار

  28. پایه ثابت گنجور

    خداوکیلی ظلم نیست ما وقت بذاریم که دیوان امیر معزی بازبینی بشه؟
    اصلا این شاعرا چطور انتخاب میشن؟ چرا یه سیستم ساده نمیذارید که کاربرا انتخاب کنن کدوم شاعر و کدوم کتاب اضافه بشه ؟
    آدم رغبت نمیکنه از بس که چاپلوسی امیر و وزیر رو میکنه
    با تشکر

  29. پایه ثابت گنجور

    اگر چند خط راهنمایی توی صفحه بازبینی اضافه بشه که نیم فاصله و حرکت ها ( ّ َ ُ ِ ً ٌ ٍ ) و … رو یادآوری کنه خیلی بهتر میشه

  30. جواد

    من هم مشتری گاه گاه گنجور هستم و متشکر.
    ۱. روش فعلی نیم بیت های پراکنده بازده بیشتری از انتخاب مرتب دارد. رای گیری های روی اینترنت همه از انتخابات راندوم استفاده میکنند.
    ۲. در خط فارسی، اصلاح نیم فاصله و فاصله بعد از اصلاح کلمه ها انجام میشود. این اصلاح توسط الگوریتم با استفاده از فرهنگ لغات ممکن است.
    ۳. کاربران بسیار دانا تری از من از گنجور استفاده میکنند. پس دو پیشنهاد بالا فقط رای خاضعانه من هستند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.