بایگانی دسته: گنجور

گزارش میاندوره‌ای روند بازبینی خروجیهای OCR دیوان ملک‌الشعرای بهار

حدود چهار ماه از آغاز بازبینی خروجیهای OCR دیوان ملک‌الشعرای بهار می‌گذرد. همچنان که پیشتر اشاره شده بود در این گام ۴۵۷۵۹ تصویر بریده و OCR شده از دیوان ملک‌الشعرای بهار (که در حال حاضر تنها حدود ۱۰۰۰ بیت از اشعارش در گنجور در دسترس است) برای بازبینی در دسترس قرار گرفته است.

تا به حال و پس از گذشت نزدیک به چهار ماه، ۷۱۳۰۲ مورد بازبینی روی این تصاویر صورت گرفته که سهم ۲۰۴۰۱ تکه (حدود ۴۵ درصد) از تصاویر کمتر از دو بار، سهم ۲۳۳۹۳ تکه (۵۱ درصد) دقیقاً دو بار و سهم ۱۹۶۵ مورد (۴ درصد) سه بار و بیشتر بازبینی بوده است. پایان بازبینی زمانیست که اکثریت تصاویر حداقل سه بار بازبینی شده باشند و با روند کنونی به نظر می‌رسد تا آن زمان سه یا چهار ماه دیگر فاصله داشته باشیم.

تعداد ۴۵۶۱ آی.پی مجزا برای بازبینها به ثبت رسیده است. تصاویر زیر نشانگر آمار ثبت شده برای بازدیدها از سیستم بازبینی توسط سیستم آمارگیری گوگل است:

نمودار آماری بازبینیها
جدول کشورهای دوستان مشارکت کننده در بازبینی

از دوستانی که با این شیوه دقایقی از وقت روزانه‌شان را به ادبیات فارسی اهدا می‌کنند بار دیگر به سهم خودم تشکر می‌کنم.

تغییر اسکریپت جستجو در لغتنامهٔ دهخدا

اسکریپت جستجو در لغتنامهٔ دهخدا را تغییر دادم. اسکریپت جدید باعث می‌شود با دو بار کلیک بر روی کلمات (یا انتخاب آنها با ماوس) تصویری بالای آنها ظاهر شود که کلیک بر روی آن باعث جستجوی کلمهٔ انتخاب شده در سایت لغتنامه می‌شود.

علت تغییر اسکریپت قدیمی، ناسازگاری آن با مرورگرهای کروم، سافاری و اپرا بود. منبع اسکریپت جدید اینجاست.

علاوه بر آن اسکریپتی را که برای فارسی کردن شماره‌های لیست اشعار در صفحات استقبال به کار گرفته شده بود (اینجا را ببینید) با اسکریپت نوشته شده توسط آقای بهروز ودادیان جایگزین کردم (اینجا و اینجا را ببینید). از ایشان بابت زحمتی که برای آزمایش اسکریپت جدید جستجو و نوشتن اسکریپت جدید لیستهای مرتب کشیده‌اند تشکر می‌کنم.

گنجور در ایران‌صدا

روز چهارشنبه بیستم بهمن ماه، ساعت ۱ بعدازظهر در برنامهٔ زندهٔ رادیو-تی‌وی اینترنتی ایران‌صدا، گنجور به عنوان نمونه‌ای از مشارکت کاربران فارسی‌زبان اینترنت در توسعهٔ محتوای وب فارسی مورد بحث و بررسی قرار خواهد گرفت. محور عمدهٔ بحث -آن طور که به من به عنوان مهمان برنامه اطلاع داده شده- احتمالاً سیستم بازبینی خروجیهای OCR خواهد بود اما سعی خواهم کرد در صورت نزدیکی با موضوع بحث در مورد صورتهای دیگر مشارکت دوستداران ادبیات فارسی در پیشبرد گنجور –گسترش دامنهٔ داده‌های گنجور با استفاده از ویرایشگر گنجور رومیزی، ساغر، کمکهای مالی و …- نیز مطالبی را طرح کنم. پیشتر کم و بیش ساز و کار سیستم بازبینی خروجیهای OCR در تازه‌های گنجور شرح داده شده اما احتمالاً در یک برنامهٔ رادیویی مجال بیشتری برای بحث در این مورد وجود دارد و این می‌تواند برای دوستانی که در زمینهٔ نحوهٔ کارکرد این سیستم سؤال داشتند جالب باشد. دوستان در صورتی که سؤال یا پیشنهاد خاصی پیرامون گنجور و متعلقاتش دارند که به نظرشان طرح آن در این گفتگو -با محوریت مشارکت فارسی‌زبانان در توسعهٔ وب فارسی- مناسب است لطفاً مطرح کنند تا در صورت تناسب با بحث راجع به آن صحبت شود.

ایران صدا

پایان مرحلهٔ سوم بازبینی خروجیهای OCR

مرحلهٔ سوم بازبینی خروجیهای OCR که شامل بازبینی ۶۴۱۱ خط شعر (و نثر توضیحی) بریده شده از دیوان قاآنی (باقیماندهٔ اشعار او شامل غزلیات، اشعار ترکیبی، قطعات و رباعیات) بود با ۱۹۷۸۶ مورد بازبینی پایان یافت. در این مرحله بیش از ۹۴ درصد تصاویر حداقل سه بار بازبینی شده‌اند (۳۴۴ مورد دو بار، ۱۰۲۹ مورد بیش از سه بار و باقی دقیقاً سه بار بازبینی شده‌اند).

در مجموع ۱۱۴۶ آی.پی مستقل از دوستانی که در این مرحله مشارکت کرده‌اند به ثبت رسیده است. نمودارهای زیر روند بازبینی را در بازهٔ زمانی یک ماههٔ این مرحله نشان می‌دهند.

نمودار آماری بازبینیها
جدول کشورهای دوستان مشارکت کننده در بازبینی

با پایان این مرحله در مجموع حدود ۲۰۵۰۰ بیت شعر از قاآنی در سایت در دسترس قرار گرفته است (اشعار قاآنی در گنجور) و کار ما با دیوان قاآنی تمام شده است. در میان خروجیها بعضاً متون توضیحی راجع به واژه‌های مشکل نیز وجود داشته که این موارد نیز به مرور در قالب حاشیه‌ها به سایت اضافه خواهند شد.

نسخهٔ مخصوص گنجور رومیزی از این نشانی قابل دریافت است. توضیح لازم آن که به دلیل مشکلات پیش آمده برای سایت میزبان گنجور رومیزی، فعلاً به دلیل دسترسی محدودم به امکانات این سایت، امکان به‌روزرسانی فهرست شعرهای جدید (برای یافتن نشانی دریافت از طریق اجرای فرمان «دریافت فهرست مجموعه‌های اشعار» از منوی «مجموعه‌ها»ی برنامه) را ندارم و پس از حل این مشکلات این فهرست را نیز به‌روز خواهم کرد.

مرحلهٔ چهارم بازبینی خروجیهای OCR با در دسترس قرار گرفتن ۴۵۷۵۹ تصویر از دیوان ملک‌الشعرای بهار (که در حال حاضر تنها حدود ۱۰۰۰ بیت از اشعارش در گنجور در دسترس است) از چهارم بهمن‌ماه آغاز شده است.

گنجور رومیزی ویرایش ۲.۳ و سفرنامهٔ ناصرخسرو

در ویرایش ۲.۳ گنجور رومیزی همان گونه که یکی از دوستان پیشنهاد کرده بود دامنهٔ عملکرد دکمهٔ فال را می‌توان به گونه‌ای تنظیم کرد که بخشهای مختلف از آثار شاعران متفاوت را پوشش دهد.

دامنهٔ عملکرد دکمهٔ فال
تعیین بخشهایی که دکمهٔ فال از آنها شعر انتخاب می‌کند

از آنجا که نمایش فهرست محتویات متون منثور با نمایش اولین پاراگراف آنها در فهرست کند بود در این ویرایش متون پاراگرافهای اول بلند بریده می‌شود و این صفحات سریع‌تر نمایش داده می‌شوند.

نمایش فهرست متون منثور در گنجور رومیزی ویرایش ۲.۳

بهینه‌سازیها و رفع اشکالهای جزئی دیگری هم در این ویرایش صورت گرفته است که از آن جمله می‌توان به مقایسه‌های بیشتر در هنگام اضافه کردن مجموعه‌های اشعار جهت جلوگیری از ورود داده‌های تکراری یا نامعتبر به برنامه و همینطور انتقال فرمانهای «اضافه کردن مجموعه‌های اشعار …» و «دریافت فهرست مجموعه‌های اشعار» به منوی جدید «مجموعه‌ها» اشاره کرد.

نصاب به‌روزرسانی این ویرایش را از این نشانی دریافت کنید.

علاوه بر این سفرنامهٔ ناصر خسرو با استفاده از فایل قابل دریافت از سایت تصوف ایران (این صفحه) و با بخش‌بندی در قالب صد بخش مجزا در جهت تسهیل مطالعه به سایت اضافه شد (سفرنامهٔ ناصر خسرو در گنجور). مجموعهٔ مناسب جهت گنجور رومیزی را از این نشانی دریافت کنید.

یادآوری مجدد: در این ویرایش فرمان «اضافه کردن مجموعه‌های اشعار …» دیگر در منوی «ابزارها» قرار ندارد و به منوی جدید «مجموعه‌ها» منتقل شده است.

پایان مرحلهٔ دوم بازبینی خروجیهای OCR

مرحلهٔ دوم بازبینی خروجیهای OCR که شامل بازبینی ۳۳۱۶۰ خط شعر بریده شده از جلد دوم غزلیات بیدل بود با ۱۰۵۷۷۵ مورد بازبینی و در حالی پایان یافت که از لحاظ آماری، تعداد بازبینیها به ازای هر تصویر پراکندگی بسیار مناسبتری از مرحلهٔ اول دارد و در حالی که در مرحلهٔ قبل ۴۶ درصد موارد تنها یک بار بازبینی شده بودند، در این مرحله بیش از ۹۹ درصد تصاویر حداقل سه بار بازبینی شده‌اند (۲۶۹ مورد کمتر از سه بار، ۴۳۷۵ مورد بیش از سه بار و باقی دقیقاً سه بار بازبینی شده‌اند). ۵۳۵۰۷ مورد (حدود ۵۰ درصد)، همان متن OCR شده را بدون کوچکترین تغییری تأیید کرده‌اند (برای ۲۱۲۷۲ از ۳۳۱۶۰ تصویر یعنی ۶۴ درصد تصاویر)، ۳۵۰ مورد از تصاویر ناخوانا گزارش شده‌اند و ۶۹۰ تصویر «بد بریده شده» ثبت شده‌اند.

در مجموع ۴۲۳۱ آی.پی مستقل از دوستانی که مشارکت کرده‌اند به ثبت رسیده است. نمودارهای زیر روند بازبینی را نشان می‌دهند.


با پایان این مرحله، غزلیات بیدل دهلوی تقریباً به طور کامل (حدود ۳۲۳۳۰ بیت در قالب ۲۸۲۷ غزل) روی سایت در دسترس قرار گرفته است (صفحات معدودی از این کتاب در حین اسکن و بر اثر کشش همزمان چند برگه توسط اسکنر از قلم افتاده است و این مشکل را من در بازبینی نهایی متوجه شدم). این اشعار بر اساس حروف آخر روی از نو مرتب شده‌اند (ترتیب اولیهٔ نسخهٔ چاپی، بر اساس حرف آخر روی و سپس حروف ابتدایی غزل بود که عملاً بسیار ناکارآمد است).

تعداد زیاد غزلیات بیدل باعث شده صفحهٔ فهرست آنها سنگین شود که در فرصت مناسب همانند فهرست غزلیات شمس آن را به چند صفحهٔ مجزا می‌شکنم تا این مشکل حل شود.

نسخهٔ مخصوص گنجور رومیزی را پس از اعمال چند تغییر بر روی برنامه، جهت سازگاری بیشتر آن با ساغر و همینطور رفع مشکلی که در حال حاضر برای اضافه کردن مجموعه‌های شامل اشعار یک شاعر از پیش موجود وجود دارد ارائه خواهم کرد.

مرحلهٔ سوم بازبینی، برای ۶۴۱۲ تصویر از اشعار قاآنی (غزلیات، قطعات و سایر اشعار بعد از قصاید) از پنجشنبهٔ هفتهٔ پیش آغاز شده است.

از لطف و زحمت تمامی دوستانی که تا به حال در این کار مشارکت کرده‌‎اند بار دیگر و به سهم خودم تشکر می‌کنم.

صفحهٔ گنجور در فیس‌بوک

یکی از نیازمندیهای پیشرفت گنجور مشارکت هر چه بیشتر علاقمندان است. بازبینی خروجیهای OCR، گزارش خطاهای املایی و تایپی و همینطور حاشیه‌نویسی تحقیقی بر اشعار، آماده کردن مجموعه‌های اشعار برای گنجور رومیزی و … همه و همه نیازمند مشارکت علاقمندان است.

پیشتر دوستان پیشنهاد کرده بودند که در فیس‌بوک صفحه‌ای برای گنجور بسازم تا از طریق آن گنجور به کاربران این سایت معرفی شود. هم‌اکنون این صفحه راه افتاده (نشانی: http://www.facebook.com/ganjoor) و دوستان می‌توانند از طریق آن فعالیتهای گنجور را پیگیری کنند و در پیشرفت آن با مشارکت در معرفی گنجور و فعالیتهای دوستان در آن سهیم باشند.

صفحهٔ گنجور در فیس‌بوک

در ضمن، با توجه به جایگزینی موقت آگهی بازبینی خروجیهای OCR با آگهی صفحهٔ فیس‌بوک تعداد بازبینیهای روزانه کاهش پیدا کرده، حدود ۶۰۰۰ تکه از حدود ۳۴۰۰۰ تکه خروجی OCR مربوط به غزلیات بیدل کمتر از ۳ بار بازبینی شده‌اند که در صورت بازبینی این تکه‌ها مرحلهٔ بعد کار آغاز خواهد شد. این نکته را جهت یادآوری این مطلب گوشزد کردم که دوستان احیاناً تصور نکنند کار رها شده. هنوز نیازمند صرف دقایق ارزشمندتان هستیم. احتمالاً در هفتهٔ آینده آگهی مزبور به جای خودش برمی‌گردد. صفحهٔ بازبینی را همیشه در نشانی http://v.ganjoor.net در دسترس دارید.

زندگینامهٔ شاعران در گنجور

اضافه شدن مختصری دربارهٔ زندگینامهٔ شاعران، قرن و محل زندگیشان و اطلاعاتی از این دست از جمله پیشنهادها و درخواستهای تعداد زیادی از دوستان بوده و از آنجا که من همواره در این فکر بوده‌ام که این کار را به شیوه‌ای غیر از رونویسی از سایتها و منابع اینترنتی (دم دست‌ترین راه) انجام دهم تا به حال انجام نشده. در هر حال یکی از همراهان همیشگی گنجور، علی‌رغم مشغلهٔ زیادشان از مدتی پیش تهیهٔ زندگینامه‌های مختصر و چندخطی شاعران برای گنجور را آغاز کرده‌اند. تعدادی از این زندگینامه‌ها آماده شده و در صفحات اصلی مربوط به هر یک از آنها در دسترس قرار گرفته‌اند. منابع مورد استفادهٔ ایشان برای تهیهٔ این مطالب را پس از تکمیل کار ذکر خواهم کرد. از ایشان و همهٔ دوستانی که برای بهبود گنجور از وقت گرانبهایشان مایه می‌گذارند به سهم خود تشکر می‌کنم. دوستان در صورتی که پیشنهادی در مورد این متون دارند یا راجع به آنها نظر انتقادی دارند همینجا مطرح کنند.

پایان وزنیابی قسمت اول غزلیات بیدل

چیزی حدود ۱۶۰۰۰ بیت از غزلیات بیدل که به شیوهٔ OCR به گنجور اضافه شده وزنیابی شد. آمار اوزان این حجم از غزلیات بیدل را در این صفحه ببینید. در حین وزنیابی، برخی اشکالات او.سی.آری در محل قافیه‌ها را نیز دیدم و رفع کردم و غزلیات را با توجه به اشکالات رفع شده از نو مرتب کردم. از این جهت ترتیب غزلیات بیدل در گنجور رومیزی با سایت ناهمگون شده است. پروژهٔ بازبینی خروجیهای OCR نیز در جریان است. تا به حال عموم بریده‌ها حداقل دو بار دیده شده‌اند و دور سوم بازبینی در حال انجام است. به لطف این نوشته از وبلاگ ITLine چند روزی تعداد بازبینیهای روزانه زیاد شد و روند کار سرعت گرفت و این در پیشرفت سریع‌تر کار مؤثر بود. در هر حال، در حال حاضر تعداد بازبینیهای روزانه به حالت عادی بازگشته و با این روند احتمالاً سه یا چهار هفتهٔ دیگر تا تکمیل بازبینی اشعار جلد دوم غزلیات بیدل زمان داریم. پس از تکمیل این مرحله، گزارشی از آمار بازبینیهای این بخش تهیه خواهم کرد. در کل، دقت بازبینی این بخش به نظرم بهتر از بخشهای قبلی است.

تغییر بستهٔ میزبانی گنجور

متأسفانه در سه ماه اخیر هزینهٔ پنهان میزبانی گنجور در قالب بستهٔ خریداری شده از شرکت مدیاتمپل (سرویس گرید که راهکار ابتکاری این شرکت برای میزانی اشتراکی است) افزایش صعودی داشت و برای سرویس میزبانیی که قیمت آن سالانه ۲۰۰ دلار است در عرض سه ماه حدود ۱۸۰ دلار جریمهٔ مصرف بیش از حد منابع پرداخت شده بود (که البته هزینهٔ آن از محل کمکهای مالی دوستان تأمین شده بود).

هزینه‌های پنهان گنجور

با توجه به مشکل به وجود آمده و این که روند افزایشی این هزینهٔ پنهان به زودی به نقطه‌ای می‌رسید که تأمین آن امکان نداشت تصمیم گرفتم با خرید یک سرور مجازی از همین شرکت (که انشاالله هزینهٔ پنهان ندارد 😉 ) مشکل را حل کنم. در هر حال، امروز انتقال فایلها و پایگاه داده‌ها تکمیل شده و گنجور روی سرور جدید در دسترس قرار گرفته است.