بایگانی ماهیانه: تیر ۱۳۸۹

گزارشی از روند پیشرفت بازبینی خروجیهای OCR

در مرحلهٔ اول کار بازبینی چشمی خروجیهای OCR تعداد ۵۳۰۳۷ تکه تصویر متن بریده شده از جلد اول غزلیات بیدل و قصاید قاآنی در معرض بازبینی قرار گرفته که تا امروز با گذشت ۱۸ روز از فراخوان برای همکاری دوستداران ادبیات فارسی حدود ۴۷ درصد از این تصاویر (۲۴۸۵۲ تکه) حداقل یک بار بازبینی شده‌اند (۱۴ درصد از کل تصاویر بیش از یک بار بازبینی شده‌اند). آمار روزانهٔ بازبینیها از طریق این صفحه در دسترس قرار دارد.

تعداد ۲۳۰۷ آی.پی مجزا برای بازبینها به ثبت رسیده است. تصویر زیر نشانگر آمار ثبت شده برای بازدیدها از سیستم بازبینی توسط سیستم آمارگیری گوگل است:

آمار بازدیدهای از سیستم بازبینی خروجیهای OCR

جدول زیر آمار تفکیکی کشورهای بازدیدکننده‌ها را به ترتیب تعداد صفحات بازدید شده به ازای هر نفر نشان می‌دهد.

کشورهای بازدیدکنندگان

از همهٔ دوستانی که در این کار مشارکت کرده و می‌کنند تشکر می‌کنم. با روند فعلی به نظر می‌رسد تا در دسترس قرار گرفتن اولین خروجی این همکاری در سایت باید چیزی حدود یک ماه دیگر فاصله داشته باشیم. طبق برنامهٔ فعلی در مرحلهٔ دوم باقیماندهٔ غزلیات بیدل (جلد دوم) و دیوان قاآنی و احتمالاً در مرحلهٔ سوم دیوان کامل ملک‌الشعرای بهار برای بازبینی در دسترس قرار خواهند گرفت.

نکاتی دربارهٔ گنجور رومیزی

دوست عزیزی زحمت کشیده‌اند و در یک نوشتهٔ مفصل علاوه بر معرفی گنجور رومیزی نقاط ضعف و قوت آن را از نظر خودشان بررسی کرده‌اند. اگر علاقمند بودید نگاهی به این مطلب جامع بیندازید: اینجا.

سیستم بازبینی چشمی خروجیهای او.سی.آر

پیش‌تر اشاره کرده بودم که قصد دارم به کمک OCR دامنهٔ داده‌های موجود در گنجور را گسترش دهم و کار را هم با اضافه کردن کتاب کوچکی از سنایی غزنوی، قسمتی از غزلیات بیدل دهلوی و چند قصیده از قاآنی شروع کرده بودم.

قبلاً هم گفته بودم که اضافه کردن اشعار با استفاده از OCR، غیر از امکانات و زمانی که برای اسکن و اجرای پردازش OCR روی ورودیها و دریافت خروجی نیاز دارد نیاز به یک کار چشمی پر زحمت دارد تا دقت خروجیها به سطح قابل قبول برسد. گفته بودم که برنامه‌ای دارم برای آن که علاقمندان گنجور را در این کار به همیاری دعوت کنم و با استفاده از مشارکت آنها سرعت و دقت گسترش دامنهٔ داده‌ها افزایش یابد.

الان، طرح ساده‌ای آماده کرده‌ام برای آن که به کمک آن این امر را محقق کنم. علاقمندان با مراجعه به این نشانی می‌توانند با بازبینی خروجیهای OCR به گسترش دامنهٔ داده‌های گنجور کمک کنند. سیستم طراحی شده بر اساس تعداد رأیهای کاربران به متون کار می‌کند و نهایتاً با غربال پررأی‌ترین گزینه‌ها خروجیها را تولید خواهم کرد. اگر اشتباه کردید: اشتباه تایپی یا انتخاب اشتباه، نگران نباشید! علاقمندان دیگر نیز خروجیها را می‌بینند و اشتباه شما را با رأیهایشان به متون درست‌تر تصحیح می‌کنند. فقط لطفاً در صورتی که صفحه‌کلید فارسی ندارید در این کار مشارکت نکنید! ورود متون به صورت فارگلیسی هیچ کمکی نمی‌کند.

بازبینی چشمی خروجیهای OCR

فعلاً خروجیهای باقیماندهٔ جلد اول غزلیات بیدل دهلوی در این سیستم در دسترس قرار دارند و به زودی باقیماندهٔ دیوان قاآنی را نیز در این سیستم در معرض بازبینی علاقمندان قرار می‌دهم.