روز چهارشنبه بیستم بهمن ماه، ساعت ۱ بعدازظهر در برنامهٔ زندهٔ رادیو-تیوی اینترنتی ایرانصدا، گنجور به عنوان نمونهای از مشارکت کاربران فارسیزبان اینترنت در توسعهٔ محتوای وب فارسی مورد بحث و بررسی قرار خواهد گرفت. محور عمدهٔ بحث -آن طور که به من به عنوان مهمان برنامه اطلاع داده شده- احتمالاً سیستم بازبینی خروجیهای OCR خواهد بود اما سعی خواهم کرد در صورت نزدیکی با موضوع بحث در مورد صورتهای دیگر مشارکت دوستداران ادبیات فارسی در پیشبرد گنجور –گسترش دامنهٔ دادههای گنجور با استفاده از ویرایشگر گنجور رومیزی، ساغر، کمکهای مالی و …- نیز مطالبی را طرح کنم. پیشتر کم و بیش ساز و کار سیستم بازبینی خروجیهای OCR در تازههای گنجور شرح داده شده اما احتمالاً در یک برنامهٔ رادیویی مجال بیشتری برای بحث در این مورد وجود دارد و این میتواند برای دوستانی که در زمینهٔ نحوهٔ کارکرد این سیستم سؤال داشتند جالب باشد. دوستان در صورتی که سؤال یا پیشنهاد خاصی پیرامون گنجور و متعلقاتش دارند که به نظرشان طرح آن در این گفتگو -با محوریت مشارکت فارسیزبانان در توسعهٔ وب فارسی- مناسب است لطفاً مطرح کنند تا در صورت تناسب با بحث راجع به آن صحبت شود.
بایگانی سالیانه: ۱۳۸۹
رابط برنامهنویسی گنجور رومیزی، دیوان وحدت کرمانشاهی و …
در مطلبی دو بخشی به شرح راهکاری پرداختهام که میتواند برای دوستانی که تمایل دارند از فایلهای دادهٔ گنجور رومیزی اطلاعات استخراج کنند یا این فایلها را تولید کنند مفید باشد:
رابط برنامهنویسی گنجور رومیزی – بخش اول
رابط برنامهنویسی گنجور رومیزی – بخش دوم
خروجی برنامهٔ نمونهٔ شرح داده شده در مطلب دوم (استخراج اطلاعات از یک فایل docx و تبدیل آن به یک فایل gdb) که شامل اشعار وحدت کرمانشاهی -تهیه شده با استفاده از فایل قابل دریافت از سایت تصوف ایران– است را میتوانید از این نشانی دریافت و به گنجور رومیزی خود اضافه کنید.
در مطلب پیشین تازههای گنجور اشاره کرده بودم که سورسفرج -سایت میزبان گنجور رومیزی- دچار مشکلاتی شده و من به بعضی امکانات آن دسترسی ندارم. آن مشکلات هنوز حل نشده و مشکل دیگری نیز گریبانگیر این سایت شده و آن فیلتر شدن این سایت در ایران است! دوستان و علاقمندان گنجور رومیزی را به صبر و دعا جهت هدایت برادران دستاندرکار مصائب پیش آمده دعوت میکنم و امیدوارم با توجه به نه چندان عادی بودن نفس فیلتر شدن این سایت، مشکل در زمان معقول حل شود.
پایان مرحلهٔ سوم بازبینی خروجیهای OCR
مرحلهٔ سوم بازبینی خروجیهای OCR که شامل بازبینی ۶۴۱۱ خط شعر (و نثر توضیحی) بریده شده از دیوان قاآنی (باقیماندهٔ اشعار او شامل غزلیات، اشعار ترکیبی، قطعات و رباعیات) بود با ۱۹۷۸۶ مورد بازبینی پایان یافت. در این مرحله بیش از ۹۴ درصد تصاویر حداقل سه بار بازبینی شدهاند (۳۴۴ مورد دو بار، ۱۰۲۹ مورد بیش از سه بار و باقی دقیقاً سه بار بازبینی شدهاند).
در مجموع ۱۱۴۶ آی.پی مستقل از دوستانی که در این مرحله مشارکت کردهاند به ثبت رسیده است. نمودارهای زیر روند بازبینی را در بازهٔ زمانی یک ماههٔ این مرحله نشان میدهند.
با پایان این مرحله در مجموع حدود ۲۰۵۰۰ بیت شعر از قاآنی در سایت در دسترس قرار گرفته است (اشعار قاآنی در گنجور) و کار ما با دیوان قاآنی تمام شده است. در میان خروجیها بعضاً متون توضیحی راجع به واژههای مشکل نیز وجود داشته که این موارد نیز به مرور در قالب حاشیهها به سایت اضافه خواهند شد.
نسخهٔ مخصوص گنجور رومیزی از این نشانی قابل دریافت است. توضیح لازم آن که به دلیل مشکلات پیش آمده برای سایت میزبان گنجور رومیزی، فعلاً به دلیل دسترسی محدودم به امکانات این سایت، امکان بهروزرسانی فهرست شعرهای جدید (برای یافتن نشانی دریافت از طریق اجرای فرمان «دریافت فهرست مجموعههای اشعار» از منوی «مجموعهها»ی برنامه) را ندارم و پس از حل این مشکلات این فهرست را نیز بهروز خواهم کرد.
مرحلهٔ چهارم بازبینی خروجیهای OCR با در دسترس قرار گرفتن ۴۵۷۵۹ تصویر از دیوان ملکالشعرای بهار (که در حال حاضر تنها حدود ۱۰۰۰ بیت از اشعارش در گنجور در دسترس است) از چهارم بهمنماه آغاز شده است.
گنجور رومیزی ویرایش ۲.۳ و سفرنامهٔ ناصرخسرو
در ویرایش ۲.۳ گنجور رومیزی همان گونه که یکی از دوستان پیشنهاد کرده بود دامنهٔ عملکرد دکمهٔ فال را میتوان به گونهای تنظیم کرد که بخشهای مختلف از آثار شاعران متفاوت را پوشش دهد.
از آنجا که نمایش فهرست محتویات متون منثور با نمایش اولین پاراگراف آنها در فهرست کند بود در این ویرایش متون پاراگرافهای اول بلند بریده میشود و این صفحات سریعتر نمایش داده میشوند.
بهینهسازیها و رفع اشکالهای جزئی دیگری هم در این ویرایش صورت گرفته است که از آن جمله میتوان به مقایسههای بیشتر در هنگام اضافه کردن مجموعههای اشعار جهت جلوگیری از ورود دادههای تکراری یا نامعتبر به برنامه و همینطور انتقال فرمانهای «اضافه کردن مجموعههای اشعار …» و «دریافت فهرست مجموعههای اشعار» به منوی جدید «مجموعهها» اشاره کرد.
نصاب بهروزرسانی این ویرایش را از این نشانی دریافت کنید.
علاوه بر این سفرنامهٔ ناصر خسرو با استفاده از فایل قابل دریافت از سایت تصوف ایران (این صفحه) و با بخشبندی در قالب صد بخش مجزا در جهت تسهیل مطالعه به سایت اضافه شد (سفرنامهٔ ناصر خسرو در گنجور). مجموعهٔ مناسب جهت گنجور رومیزی را از این نشانی دریافت کنید.
یادآوری مجدد: در این ویرایش فرمان «اضافه کردن مجموعههای اشعار …» دیگر در منوی «ابزارها» قرار ندارد و به منوی جدید «مجموعهها» منتقل شده است.
دیوان هلالی جغتایی
همونطور كه قبلا گفته بودم دارم توی وقتهای مردهام تایپ میكنم. این فایلی كه پیوست كردم حاصل كار تا اینجاست كه شامل غزلها تا حرف ب و قصاید و مقطعات و مخمس و رباعیات و مثنوی شاه و گدا جمعاً حدود ۱۸۰۰ بیت است كه حدود یك سوم حجم كل دیوان است. بقیهٔ غزلها و مثنوی صفاتالعاشقین را هم باز در اوقات مرده تایپ خواهم كرد (كی تمام شود خدا میداند!). … مقدمهٔ دیوان را هم كه سعید نفیسی نوشته است پیوست كردم. (برای آشنایی با شاعر). … راستی تایپ هم از روی نسخهٔ كتابخانهٔ تبرستان است.
آنچه خواندید گزیدهای از ایمیل همراه گرامی گنجور آقای علی پیسپار است که به ضمیمهٔ آن اشعار هلالی جغتایی را به گنجور هدیه کردهاند. حجم فعلی از دیوان هلالی جغتایی با استفاده از فایل PDF قابل دریافت از این صفحه و -همانطور که اشاره شد- به همت آقای پیسپار به گنجور اضافه شده است (آثار هلالی جغتایی در گنجور).
مجموعهٔ مناسب برای گنجور رومیزی را از اینجا دریافت کنید.
کلیله و دمنهٔ بهرامشاهی
کتاب کلیله و دمنه به ترجمهٔ ابوالمعالی نصرالله منشی با استفاده از نسخهٔ قابل دریافت از سایت تصوف ایران (این صفحه) از طریق گنجور در دسترس قرار گرفت (کلیله و دمنه در گنجور).
برای مطالعهٔ آسانتر، بابها به بخشهای کوچکتر تقسیمبندی شدهاند و بعضاً عناوینی متناسب برای آنها انتخاب شده است.
دوستان فایل مناسب برای اضافه کردن به گنجور رومیزی را از اینجا دریافت کنند.
۶۰ غزل دیگر از عرفی شیرازی
به لطف همراه گرامی گنجور جناب رسته که آثار عرفی شیرازی به لطف بیچشمداشت ایشان از طریق گنجور در اختیار علاقمندان قرار گرفته (اینجا و اینجا را ببینید) ۶۰ غزل دیگر از این شاعر پارسیگو شامل فهرست غزلیات منتهی به حروف «ذال» تا «لام» در گنجور در دسترس قرار گرفت (غزلیات عرفی) تا حجم آثار در دسترس این شاعر در گنجور به 2703 بیت برسد.
مجموعهٔ اشعار کاملتر عرفی برای گنجور رومیزی را از این نشانی نشانی دریافت کنید.
رباعیات خلیلالله خلیلی
به لطف همراه گرامی گنجور، آقای مهران صمدنژاد، مجموعهای از رباعیات و دوبیتیهای خلیلالله خلیلی شاعر معاصر افغانی در دسترس قرار گرفت.
کاربران گنجور رومیزی با دریافت این فایل میتوانند آن را به برنامهٔ خود اضافه کنند.
پایگاه دادههای مشترک برای گنجور رومیزی و ساغر
در نوشتهٔ اعلان انتشار ویرایش ۲.۲ گنجور رومیزی اشاره شد که در این ویرایش میتوانید مسیر فایل پایگاه دادههای برنامه را (در هنگام نصب) انتخاب کنید. این قابلیت، علاوه بر حل مشکل دسترسی نوشتن در مسیر نصب برنامه در ویندوز ۷ امکان این را میدهد که برای گنجور رومیزی و ساغر از یک فایل پایگاه داده استفاده کنید.
فایل پایگاه دادههای ساغر و گنجور رومیزی ganjoor.s3db نام دارد که در ویرایشهای قدیمی گنجور رومیزی در مسیر آن قرار داشت. برای تغییر مسیر این فایل در آخرین ویرایش، در محل نصب گنجور رومیزی فایل ganjoor.ini را باز کنید. مسیر دایرکتوری حاوی فایل یاد شده در برابر عنوان Path نوشته شده است که میتوانید با تغییر آن به مسیر مورد نظر خود و ذخیرهٔ آن، مسیر پایگاه دادههای برنامه را تغییر دهید. دقت کنید که لازم است خودتان فایل ganjoor.s3db را به مسیر مورد نظرتان کپی کرده باشید.
مسیر پیشفرض پایگاه دادههای ساغر در حال حاضر، در درایو ویندوز (عموماً C:)، زیرشاخهٔ کاربری که برنامه را نصب کرده (در ویندوز ۷ و ویستا این زیرشاخه Users و در ویندوز XP این زیرشاخه Documents And Settings نام دارد)، زیرشاخهٔ Pojh، زیرشاخهٔ Saaghar است. به عنوان نمونه برای من با کاربر ویندوزی hamid مسیر این زیرشاخه به این صورت است (ویندوز ۷):
لذا من در صورتی که بخواهم از یک فایل پایگاه دادههای مشترک برای هر دو برنامه استفاده کنم باید محتوای فایل ganjoor.ini را به این شکل تغییر دهم:
اگر نصاب کامل گنجور رومیزی را در اختیار دارید، امکان تعیین مسیر پایگاه دادههای برنامه را در حین نصب دارید:
توجه داشته باشید که نصاب گنجور رومیزی در صورت وجود فایل ganjoor.s3db در مسیر انتخاب شده از قبل آن را رونویسی نمیکند و همان فایل قدیمی را نگه میدارد. در صورتی که تمایل دارید فایل قدیمی رونویسی شود باید خودتان پیش از نصب گنجور رومیزی آن را حذف کنید.
ویرایش ۲.۲ گنجور رومیزی و غزلیات بیدل
ویرایش ۲.۲ گنجور رومیزی علاوه بر چند رفع اشکال شامل قابلیتهای جدیدی از جمله حذف خودکار آثار قدیمی یک شاعر در هنگام اضافه کردن مجموعه اشعار جدید از او، امکان تغییر مسیر پایگاه دادههای برنامه با ویرایش مسیر آن در فایل ganjoor.ini واقع در مسیر نصب (و در نتیجه امکان نصب برنامه در مسیر Program Files در ویندوز ۷ و ویستا و همینطور امکان استفادهٔ مشترک با ساغر از یک فایل پایگاه داده) و پشتیبانی از نمایش زندگینامهٔ شاعران همانند ساغر است. برای مشاهدهٔ اطلاعات بیشتر اینجا را ببینید. نصاب بهروزرسانی را از اینجا دریافت کنید.
مجموعهٔ کامل غزلیات بیدل را نیز میتوانید از اینجا دریافت کنید و به گنجور رومیزی خود اضافه کنید. توصیه میشود پیش از اضافه کردن این مجموعه برنامهٔ خود را بهروز کنید.