بایگانی دسته: گنجور

پایان مرحلهٔ سوم بازبینی خروجیهای OCR

مرحلهٔ سوم بازبینی خروجیهای OCR که شامل بازبینی ۶۴۱۱ خط شعر (و نثر توضیحی) بریده شده از دیوان قاآنی (باقیماندهٔ اشعار او شامل غزلیات، اشعار ترکیبی، قطعات و رباعیات) بود با ۱۹۷۸۶ مورد بازبینی پایان یافت. در این مرحله بیش از ۹۴ درصد تصاویر حداقل سه بار بازبینی شده‌اند (۳۴۴ مورد دو بار، ۱۰۲۹ مورد بیش از سه بار و باقی دقیقاً سه بار بازبینی شده‌اند).

در مجموع ۱۱۴۶ آی.پی مستقل از دوستانی که در این مرحله مشارکت کرده‌اند به ثبت رسیده است. نمودارهای زیر روند بازبینی را در بازهٔ زمانی یک ماههٔ این مرحله نشان می‌دهند.

نمودار آماری بازبینیها
جدول کشورهای دوستان مشارکت کننده در بازبینی

با پایان این مرحله در مجموع حدود ۲۰۵۰۰ بیت شعر از قاآنی در سایت در دسترس قرار گرفته است (اشعار قاآنی در گنجور) و کار ما با دیوان قاآنی تمام شده است. در میان خروجیها بعضاً متون توضیحی راجع به واژه‌های مشکل نیز وجود داشته که این موارد نیز به مرور در قالب حاشیه‌ها به سایت اضافه خواهند شد.

نسخهٔ مخصوص گنجور رومیزی از این نشانی قابل دریافت است. توضیح لازم آن که به دلیل مشکلات پیش آمده برای سایت میزبان گنجور رومیزی، فعلاً به دلیل دسترسی محدودم به امکانات این سایت، امکان به‌روزرسانی فهرست شعرهای جدید (برای یافتن نشانی دریافت از طریق اجرای فرمان «دریافت فهرست مجموعه‌های اشعار» از منوی «مجموعه‌ها»ی برنامه) را ندارم و پس از حل این مشکلات این فهرست را نیز به‌روز خواهم کرد.

مرحلهٔ چهارم بازبینی خروجیهای OCR با در دسترس قرار گرفتن ۴۵۷۵۹ تصویر از دیوان ملک‌الشعرای بهار (که در حال حاضر تنها حدود ۱۰۰۰ بیت از اشعارش در گنجور در دسترس است) از چهارم بهمن‌ماه آغاز شده است.

گنجور رومیزی ویرایش ۲.۳ و سفرنامهٔ ناصرخسرو

در ویرایش ۲.۳ گنجور رومیزی همان گونه که یکی از دوستان پیشنهاد کرده بود دامنهٔ عملکرد دکمهٔ فال را می‌توان به گونه‌ای تنظیم کرد که بخشهای مختلف از آثار شاعران متفاوت را پوشش دهد.

دامنهٔ عملکرد دکمهٔ فال
تعیین بخشهایی که دکمهٔ فال از آنها شعر انتخاب می‌کند

از آنجا که نمایش فهرست محتویات متون منثور با نمایش اولین پاراگراف آنها در فهرست کند بود در این ویرایش متون پاراگرافهای اول بلند بریده می‌شود و این صفحات سریع‌تر نمایش داده می‌شوند.

نمایش فهرست متون منثور در گنجور رومیزی ویرایش ۲.۳

بهینه‌سازیها و رفع اشکالهای جزئی دیگری هم در این ویرایش صورت گرفته است که از آن جمله می‌توان به مقایسه‌های بیشتر در هنگام اضافه کردن مجموعه‌های اشعار جهت جلوگیری از ورود داده‌های تکراری یا نامعتبر به برنامه و همینطور انتقال فرمانهای «اضافه کردن مجموعه‌های اشعار …» و «دریافت فهرست مجموعه‌های اشعار» به منوی جدید «مجموعه‌ها» اشاره کرد.

نصاب به‌روزرسانی این ویرایش را از این نشانی دریافت کنید.

علاوه بر این سفرنامهٔ ناصر خسرو با استفاده از فایل قابل دریافت از سایت تصوف ایران (این صفحه) و با بخش‌بندی در قالب صد بخش مجزا در جهت تسهیل مطالعه به سایت اضافه شد (سفرنامهٔ ناصر خسرو در گنجور). مجموعهٔ مناسب جهت گنجور رومیزی را از این نشانی دریافت کنید.

یادآوری مجدد: در این ویرایش فرمان «اضافه کردن مجموعه‌های اشعار …» دیگر در منوی «ابزارها» قرار ندارد و به منوی جدید «مجموعه‌ها» منتقل شده است.

پایان مرحلهٔ دوم بازبینی خروجیهای OCR

مرحلهٔ دوم بازبینی خروجیهای OCR که شامل بازبینی ۳۳۱۶۰ خط شعر بریده شده از جلد دوم غزلیات بیدل بود با ۱۰۵۷۷۵ مورد بازبینی و در حالی پایان یافت که از لحاظ آماری، تعداد بازبینیها به ازای هر تصویر پراکندگی بسیار مناسبتری از مرحلهٔ اول دارد و در حالی که در مرحلهٔ قبل ۴۶ درصد موارد تنها یک بار بازبینی شده بودند، در این مرحله بیش از ۹۹ درصد تصاویر حداقل سه بار بازبینی شده‌اند (۲۶۹ مورد کمتر از سه بار، ۴۳۷۵ مورد بیش از سه بار و باقی دقیقاً سه بار بازبینی شده‌اند). ۵۳۵۰۷ مورد (حدود ۵۰ درصد)، همان متن OCR شده را بدون کوچکترین تغییری تأیید کرده‌اند (برای ۲۱۲۷۲ از ۳۳۱۶۰ تصویر یعنی ۶۴ درصد تصاویر)، ۳۵۰ مورد از تصاویر ناخوانا گزارش شده‌اند و ۶۹۰ تصویر «بد بریده شده» ثبت شده‌اند.

در مجموع ۴۲۳۱ آی.پی مستقل از دوستانی که مشارکت کرده‌اند به ثبت رسیده است. نمودارهای زیر روند بازبینی را نشان می‌دهند.


با پایان این مرحله، غزلیات بیدل دهلوی تقریباً به طور کامل (حدود ۳۲۳۳۰ بیت در قالب ۲۸۲۷ غزل) روی سایت در دسترس قرار گرفته است (صفحات معدودی از این کتاب در حین اسکن و بر اثر کشش همزمان چند برگه توسط اسکنر از قلم افتاده است و این مشکل را من در بازبینی نهایی متوجه شدم). این اشعار بر اساس حروف آخر روی از نو مرتب شده‌اند (ترتیب اولیهٔ نسخهٔ چاپی، بر اساس حرف آخر روی و سپس حروف ابتدایی غزل بود که عملاً بسیار ناکارآمد است).

تعداد زیاد غزلیات بیدل باعث شده صفحهٔ فهرست آنها سنگین شود که در فرصت مناسب همانند فهرست غزلیات شمس آن را به چند صفحهٔ مجزا می‌شکنم تا این مشکل حل شود.

نسخهٔ مخصوص گنجور رومیزی را پس از اعمال چند تغییر بر روی برنامه، جهت سازگاری بیشتر آن با ساغر و همینطور رفع مشکلی که در حال حاضر برای اضافه کردن مجموعه‌های شامل اشعار یک شاعر از پیش موجود وجود دارد ارائه خواهم کرد.

مرحلهٔ سوم بازبینی، برای ۶۴۱۲ تصویر از اشعار قاآنی (غزلیات، قطعات و سایر اشعار بعد از قصاید) از پنجشنبهٔ هفتهٔ پیش آغاز شده است.

از لطف و زحمت تمامی دوستانی که تا به حال در این کار مشارکت کرده‌‎اند بار دیگر و به سهم خودم تشکر می‌کنم.

صفحهٔ گنجور در فیس‌بوک

یکی از نیازمندیهای پیشرفت گنجور مشارکت هر چه بیشتر علاقمندان است. بازبینی خروجیهای OCR، گزارش خطاهای املایی و تایپی و همینطور حاشیه‌نویسی تحقیقی بر اشعار، آماده کردن مجموعه‌های اشعار برای گنجور رومیزی و … همه و همه نیازمند مشارکت علاقمندان است.

پیشتر دوستان پیشنهاد کرده بودند که در فیس‌بوک صفحه‌ای برای گنجور بسازم تا از طریق آن گنجور به کاربران این سایت معرفی شود. هم‌اکنون این صفحه راه افتاده (نشانی: http://www.facebook.com/ganjoor) و دوستان می‌توانند از طریق آن فعالیتهای گنجور را پیگیری کنند و در پیشرفت آن با مشارکت در معرفی گنجور و فعالیتهای دوستان در آن سهیم باشند.

صفحهٔ گنجور در فیس‌بوک

در ضمن، با توجه به جایگزینی موقت آگهی بازبینی خروجیهای OCR با آگهی صفحهٔ فیس‌بوک تعداد بازبینیهای روزانه کاهش پیدا کرده، حدود ۶۰۰۰ تکه از حدود ۳۴۰۰۰ تکه خروجی OCR مربوط به غزلیات بیدل کمتر از ۳ بار بازبینی شده‌اند که در صورت بازبینی این تکه‌ها مرحلهٔ بعد کار آغاز خواهد شد. این نکته را جهت یادآوری این مطلب گوشزد کردم که دوستان احیاناً تصور نکنند کار رها شده. هنوز نیازمند صرف دقایق ارزشمندتان هستیم. احتمالاً در هفتهٔ آینده آگهی مزبور به جای خودش برمی‌گردد. صفحهٔ بازبینی را همیشه در نشانی http://v.ganjoor.net در دسترس دارید.

زندگینامهٔ شاعران در گنجور

اضافه شدن مختصری دربارهٔ زندگینامهٔ شاعران، قرن و محل زندگیشان و اطلاعاتی از این دست از جمله پیشنهادها و درخواستهای تعداد زیادی از دوستان بوده و از آنجا که من همواره در این فکر بوده‌ام که این کار را به شیوه‌ای غیر از رونویسی از سایتها و منابع اینترنتی (دم دست‌ترین راه) انجام دهم تا به حال انجام نشده. در هر حال یکی از همراهان همیشگی گنجور، علی‌رغم مشغلهٔ زیادشان از مدتی پیش تهیهٔ زندگینامه‌های مختصر و چندخطی شاعران برای گنجور را آغاز کرده‌اند. تعدادی از این زندگینامه‌ها آماده شده و در صفحات اصلی مربوط به هر یک از آنها در دسترس قرار گرفته‌اند. منابع مورد استفادهٔ ایشان برای تهیهٔ این مطالب را پس از تکمیل کار ذکر خواهم کرد. از ایشان و همهٔ دوستانی که برای بهبود گنجور از وقت گرانبهایشان مایه می‌گذارند به سهم خود تشکر می‌کنم. دوستان در صورتی که پیشنهادی در مورد این متون دارند یا راجع به آنها نظر انتقادی دارند همینجا مطرح کنند.

پایان وزنیابی قسمت اول غزلیات بیدل

چیزی حدود ۱۶۰۰۰ بیت از غزلیات بیدل که به شیوهٔ OCR به گنجور اضافه شده وزنیابی شد. آمار اوزان این حجم از غزلیات بیدل را در این صفحه ببینید. در حین وزنیابی، برخی اشکالات او.سی.آری در محل قافیه‌ها را نیز دیدم و رفع کردم و غزلیات را با توجه به اشکالات رفع شده از نو مرتب کردم. از این جهت ترتیب غزلیات بیدل در گنجور رومیزی با سایت ناهمگون شده است. پروژهٔ بازبینی خروجیهای OCR نیز در جریان است. تا به حال عموم بریده‌ها حداقل دو بار دیده شده‌اند و دور سوم بازبینی در حال انجام است. به لطف این نوشته از وبلاگ ITLine چند روزی تعداد بازبینیهای روزانه زیاد شد و روند کار سرعت گرفت و این در پیشرفت سریع‌تر کار مؤثر بود. در هر حال، در حال حاضر تعداد بازبینیهای روزانه به حالت عادی بازگشته و با این روند احتمالاً سه یا چهار هفتهٔ دیگر تا تکمیل بازبینی اشعار جلد دوم غزلیات بیدل زمان داریم. پس از تکمیل این مرحله، گزارشی از آمار بازبینیهای این بخش تهیه خواهم کرد. در کل، دقت بازبینی این بخش به نظرم بهتر از بخشهای قبلی است.

تغییر بستهٔ میزبانی گنجور

متأسفانه در سه ماه اخیر هزینهٔ پنهان میزبانی گنجور در قالب بستهٔ خریداری شده از شرکت مدیاتمپل (سرویس گرید که راهکار ابتکاری این شرکت برای میزانی اشتراکی است) افزایش صعودی داشت و برای سرویس میزبانیی که قیمت آن سالانه ۲۰۰ دلار است در عرض سه ماه حدود ۱۸۰ دلار جریمهٔ مصرف بیش از حد منابع پرداخت شده بود (که البته هزینهٔ آن از محل کمکهای مالی دوستان تأمین شده بود).

هزینه‌های پنهان گنجور

با توجه به مشکل به وجود آمده و این که روند افزایشی این هزینهٔ پنهان به زودی به نقطه‌ای می‌رسید که تأمین آن امکان نداشت تصمیم گرفتم با خرید یک سرور مجازی از همین شرکت (که انشاالله هزینهٔ پنهان ندارد 😉 ) مشکل را حل کنم. در هر حال، امروز انتقال فایلها و پایگاه داده‌ها تکمیل شده و گنجور روی سرور جدید در دسترس قرار گرفته است.

گزارش دوم روند بازبینی خروجیهای OCR

در گزارش پیشین با توجه به روند جاری پیش‌بینی کرده بودم که چیزی حدود یک ماه بعد اولین خروجیهای بازبینی احتمالاً برای در دسترس قرار گرفتن از طریق سایت آماده می‌شوند. در هر حال، حالا چیزی بیش از یک ماه از آن موقع گذشته و هنوز به مرحلهٔ تولید خروجی نرسیده‌ایم. علت هم آن بوده که تعداد زیادی از تکه‌های متن هنوز حتی یک بار هم بازبینی نشده بودند. حدود دو هفته پیش تغییراتی در کد بازبینی دادم تا بازبینی‌نشده‌ها با اولویت بالاتری در معرض بازبینی قرار گیرند و با این روند امیدوارم سریع‌تر به مرحلهٔ تولید خروجی برسیم.

برای اطلاع دوستان از روند پیشرفت کار: تا این لحظه ۴۴۳۰۳ تکه (حدود ۸۳ درصد) از کل تصاویر حداقل یک بار بازبینی شده‌اند که از این تعداد ۱۸۳۲۱ تکه بیش از یک بار بازبینی شده‌اند. مجموعاً ۴۲۴۳ آی.پی مستقل از دوستانی که مشارکت کرده‌اند به ثبت رسیده. نمودارهای زیر روند مشارکت بازبینها را در ادامهٔ آمارهای گزارش اول نشان می‌دهند:

آمار بازدیدهای از سیستم بازبینی خروجیهای OCR
کشورهای بازبینها

تلفظ صحیح گنجور

هر از چند گاه دوستانی تماس می‌گیرند و متذکر می‌شوند که تلفظ «گنجور» نه ganjoor که ganjvar است و من در انتخاب نام دامنه اشتباه کرده‌ام. منشأ این قضیه گویا یک یا چند فرهنگ فارسی است که تلفظ این واژه را به این نحو ثبت کرده یا ارجاع به ریشهٔ این واژه است که آن را مرکب از «گنج» و «بر» می‌دانند و اعتقاد دارند اصل این واژه «گنجبَر» است و وقتی «ب» به «و» تبدیل می‌شود باید آن را گنجوَر بخوانیم. در هر صورت، برای ارجاع بعدی دوستان مطلبی را که چندباره در پاسخ به ایمیلهای دوستان نوشته‌ام اینجا دوباره مطرح می‌کنم:

اوّل آن که در نسخهٔ آنلاین لغتنامهٔ دهخدا هر دو تلفظ برای گنجور ثبت شده (تلفظ اول نشان دهندهٔ آن است که واو حرکت ندارد و باید کشیده خوانده شود):

گنجور در لغتنامه

راهنمای بعدی برای این که این واژه باید ganjoor تلفظ شود یا حداقل تلفظ این واژه به این صورت اشتباه نیست آن است که توجه کنیم دو تلفظ مورد بحث (ganjoor و ganjvar) هموزن نیستند، لذا اگر در شعر موزونی بتوان این واژه را ganjoor خواند دیگر نمی‌توان آن را ganjvar خواند زیرا وزن شعر به هم می‌ریزد و بالعکس. علاوه بر آن می‌توان به این نکته توجه کرد که شاعران کهن این واژه را در جایگاه قافیه با چه کلماتی همقافیه آورده‌اند.

با توجه به نکات یاد شده شاهدهای لغتنامه برای این کلمه را در این صفحه و کاربرد آن را در شعر شاعران گنجور بازخوانی کنید و سعی کنید یک مورد را بیابید که در آن بشود این واژه را ganjvar خواند و وزن شعر درست بماند و شعر موزون خوانده شود!

گنجور نه گنجور!
گنجور در جایگاه قافیه

گزارشی از روند پیشرفت بازبینی خروجیهای OCR

در مرحلهٔ اول کار بازبینی چشمی خروجیهای OCR تعداد ۵۳۰۳۷ تکه تصویر متن بریده شده از جلد اول غزلیات بیدل و قصاید قاآنی در معرض بازبینی قرار گرفته که تا امروز با گذشت ۱۸ روز از فراخوان برای همکاری دوستداران ادبیات فارسی حدود ۴۷ درصد از این تصاویر (۲۴۸۵۲ تکه) حداقل یک بار بازبینی شده‌اند (۱۴ درصد از کل تصاویر بیش از یک بار بازبینی شده‌اند). آمار روزانهٔ بازبینیها از طریق این صفحه در دسترس قرار دارد.

تعداد ۲۳۰۷ آی.پی مجزا برای بازبینها به ثبت رسیده است. تصویر زیر نشانگر آمار ثبت شده برای بازدیدها از سیستم بازبینی توسط سیستم آمارگیری گوگل است:

آمار بازدیدهای از سیستم بازبینی خروجیهای OCR

جدول زیر آمار تفکیکی کشورهای بازدیدکننده‌ها را به ترتیب تعداد صفحات بازدید شده به ازای هر نفر نشان می‌دهد.

کشورهای بازدیدکنندگان

از همهٔ دوستانی که در این کار مشارکت کرده و می‌کنند تشکر می‌کنم. با روند فعلی به نظر می‌رسد تا در دسترس قرار گرفتن اولین خروجی این همکاری در سایت باید چیزی حدود یک ماه دیگر فاصله داشته باشیم. طبق برنامهٔ فعلی در مرحلهٔ دوم باقیماندهٔ غزلیات بیدل (جلد دوم) و دیوان قاآنی و احتمالاً در مرحلهٔ سوم دیوان کامل ملک‌الشعرای بهار برای بازبینی در دسترس قرار خواهند گرفت.