بایگانی سالیانه: ۱۳۸۹

گنجور در ایران‌صدا

روز چهارشنبه بیستم بهمن ماه، ساعت ۱ بعدازظهر در برنامهٔ زندهٔ رادیو-تی‌وی اینترنتی ایران‌صدا، گنجور به عنوان نمونه‌ای از مشارکت کاربران فارسی‌زبان اینترنت در توسعهٔ محتوای وب فارسی مورد بحث و بررسی قرار خواهد گرفت. محور عمدهٔ بحث -آن طور که به من به عنوان مهمان برنامه اطلاع داده شده- احتمالاً سیستم بازبینی خروجیهای OCR خواهد بود اما سعی خواهم کرد در صورت نزدیکی با موضوع بحث در مورد صورتهای دیگر مشارکت دوستداران ادبیات فارسی در پیشبرد گنجور –گسترش دامنهٔ داده‌های گنجور با استفاده از ویرایشگر گنجور رومیزی، ساغر، کمکهای مالی و …- نیز مطالبی را طرح کنم. پیشتر کم و بیش ساز و کار سیستم بازبینی خروجیهای OCR در تازه‌های گنجور شرح داده شده اما احتمالاً در یک برنامهٔ رادیویی مجال بیشتری برای بحث در این مورد وجود دارد و این می‌تواند برای دوستانی که در زمینهٔ نحوهٔ کارکرد این سیستم سؤال داشتند جالب باشد. دوستان در صورتی که سؤال یا پیشنهاد خاصی پیرامون گنجور و متعلقاتش دارند که به نظرشان طرح آن در این گفتگو -با محوریت مشارکت فارسی‌زبانان در توسعهٔ وب فارسی- مناسب است لطفاً مطرح کنند تا در صورت تناسب با بحث راجع به آن صحبت شود.

ایران صدا

رابط برنامه‌نویسی گنجور رومیزی، دیوان وحدت کرمانشاهی و …

در مطلبی دو بخشی به شرح راهکاری پرداخته‌ام که می‌تواند برای دوستانی که تمایل دارند از فایلهای دادهٔ گنجور رومیزی اطلاعات استخراج کنند یا این فایلها را تولید کنند مفید باشد:

رابط برنامه‌نویسی گنجور رومیزی – بخش اول

رابط برنامه‌نویسی گنجور رومیزی – بخش دوم

خروجی برنامهٔ نمونهٔ شرح داده شده در مطلب دوم (استخراج اطلاعات از یک فایل docx و تبدیل آن به یک فایل gdb) که شامل اشعار وحدت کرمانشاهی -تهیه شده با استفاده از فایل قابل دریافت از سایت تصوف ایران– است را می‌توانید از این نشانی دریافت و به گنجور رومیزی خود اضافه کنید.

در مطلب پیشین تازه‌های گنجور اشاره کرده بودم که سورس‌فرج -سایت میزبان گنجور رومیزی- دچار مشکلاتی شده و من به بعضی امکانات آن دسترسی ندارم. آن مشکلات هنوز حل نشده و مشکل دیگری نیز گریبانگیر این سایت شده و آن فیلتر شدن این سایت در ایران است! دوستان و علاقمندان گنجور رومیزی را به صبر و دعا جهت هدایت برادران دست‌اندرکار مصائب پیش آمده دعوت می‌کنم و امیدوارم با توجه به نه چندان عادی بودن نفس فیلتر شدن این سایت، مشکل در زمان معقول حل شود.

پایان مرحلهٔ سوم بازبینی خروجیهای OCR

مرحلهٔ سوم بازبینی خروجیهای OCR که شامل بازبینی ۶۴۱۱ خط شعر (و نثر توضیحی) بریده شده از دیوان قاآنی (باقیماندهٔ اشعار او شامل غزلیات، اشعار ترکیبی، قطعات و رباعیات) بود با ۱۹۷۸۶ مورد بازبینی پایان یافت. در این مرحله بیش از ۹۴ درصد تصاویر حداقل سه بار بازبینی شده‌اند (۳۴۴ مورد دو بار، ۱۰۲۹ مورد بیش از سه بار و باقی دقیقاً سه بار بازبینی شده‌اند).

در مجموع ۱۱۴۶ آی.پی مستقل از دوستانی که در این مرحله مشارکت کرده‌اند به ثبت رسیده است. نمودارهای زیر روند بازبینی را در بازهٔ زمانی یک ماههٔ این مرحله نشان می‌دهند.

نمودار آماری بازبینیها
جدول کشورهای دوستان مشارکت کننده در بازبینی

با پایان این مرحله در مجموع حدود ۲۰۵۰۰ بیت شعر از قاآنی در سایت در دسترس قرار گرفته است (اشعار قاآنی در گنجور) و کار ما با دیوان قاآنی تمام شده است. در میان خروجیها بعضاً متون توضیحی راجع به واژه‌های مشکل نیز وجود داشته که این موارد نیز به مرور در قالب حاشیه‌ها به سایت اضافه خواهند شد.

نسخهٔ مخصوص گنجور رومیزی از این نشانی قابل دریافت است. توضیح لازم آن که به دلیل مشکلات پیش آمده برای سایت میزبان گنجور رومیزی، فعلاً به دلیل دسترسی محدودم به امکانات این سایت، امکان به‌روزرسانی فهرست شعرهای جدید (برای یافتن نشانی دریافت از طریق اجرای فرمان «دریافت فهرست مجموعه‌های اشعار» از منوی «مجموعه‌ها»ی برنامه) را ندارم و پس از حل این مشکلات این فهرست را نیز به‌روز خواهم کرد.

مرحلهٔ چهارم بازبینی خروجیهای OCR با در دسترس قرار گرفتن ۴۵۷۵۹ تصویر از دیوان ملک‌الشعرای بهار (که در حال حاضر تنها حدود ۱۰۰۰ بیت از اشعارش در گنجور در دسترس است) از چهارم بهمن‌ماه آغاز شده است.

گنجور رومیزی ویرایش ۲.۳ و سفرنامهٔ ناصرخسرو

در ویرایش ۲.۳ گنجور رومیزی همان گونه که یکی از دوستان پیشنهاد کرده بود دامنهٔ عملکرد دکمهٔ فال را می‌توان به گونه‌ای تنظیم کرد که بخشهای مختلف از آثار شاعران متفاوت را پوشش دهد.

دامنهٔ عملکرد دکمهٔ فال
تعیین بخشهایی که دکمهٔ فال از آنها شعر انتخاب می‌کند

از آنجا که نمایش فهرست محتویات متون منثور با نمایش اولین پاراگراف آنها در فهرست کند بود در این ویرایش متون پاراگرافهای اول بلند بریده می‌شود و این صفحات سریع‌تر نمایش داده می‌شوند.

نمایش فهرست متون منثور در گنجور رومیزی ویرایش ۲.۳

بهینه‌سازیها و رفع اشکالهای جزئی دیگری هم در این ویرایش صورت گرفته است که از آن جمله می‌توان به مقایسه‌های بیشتر در هنگام اضافه کردن مجموعه‌های اشعار جهت جلوگیری از ورود داده‌های تکراری یا نامعتبر به برنامه و همینطور انتقال فرمانهای «اضافه کردن مجموعه‌های اشعار …» و «دریافت فهرست مجموعه‌های اشعار» به منوی جدید «مجموعه‌ها» اشاره کرد.

نصاب به‌روزرسانی این ویرایش را از این نشانی دریافت کنید.

علاوه بر این سفرنامهٔ ناصر خسرو با استفاده از فایل قابل دریافت از سایت تصوف ایران (این صفحه) و با بخش‌بندی در قالب صد بخش مجزا در جهت تسهیل مطالعه به سایت اضافه شد (سفرنامهٔ ناصر خسرو در گنجور). مجموعهٔ مناسب جهت گنجور رومیزی را از این نشانی دریافت کنید.

یادآوری مجدد: در این ویرایش فرمان «اضافه کردن مجموعه‌های اشعار …» دیگر در منوی «ابزارها» قرار ندارد و به منوی جدید «مجموعه‌ها» منتقل شده است.

دیوان هلالی جغتایی

همونطور كه قبلا گفته بودم دارم توی وقت‌های مرده‌ام تایپ می‌كنم. این فایلی كه پیوست كردم حاصل كار تا اینجاست كه شامل غزل‌ها تا حرف ب و قصاید و مقطعات و مخمس و رباعیات و مثنوی شاه و گدا جمعاً حدود ۱۸۰۰ بیت است كه حدود یك سوم حجم كل دیوان است. بقیهٔ غزل‌ها و مثنوی صفات‌العاشقین را هم باز در اوقات مرده تایپ خواهم كرد (كی تمام شود خدا می‌داند!). … مقدمهٔ دیوان را هم كه سعید نفیسی نوشته است پیوست كردم. (برای آشنایی با شاعر). … راستی تایپ هم از روی نسخهٔ كتابخانهٔ تبرستان است.

آنچه خواندید گزیده‌ای از ایمیل همراه گرامی گنجور آقای علی پی‌سپار است که به ضمیمهٔ آن اشعار هلالی جغتایی را به گنجور هدیه کرده‌اند. حجم فعلی از دیوان هلالی جغتایی با استفاده از فایل PDF قابل دریافت از این صفحه و -همانطور که اشاره شد- به همت آقای پی‌سپار به گنجور اضافه شده است (آثار هلالی جغتایی در گنجور).

دیوان هلالی جغتایی

مجموعهٔ مناسب برای گنجور رومیزی را از اینجا دریافت کنید.

کلیله و دمنهٔ بهرامشاهی

کتاب کلیله و دمنه به ترجمهٔ ابوالمعالی نصرالله منشی با استفاده از نسخهٔ قابل دریافت از سایت تصوف ایران (این صفحه) از طریق گنجور در دسترس قرار گرفت (کلیله و دمنه در گنجور).

کلیله و دمنه

برای مطالعهٔ آسان‌تر، بابها به بخشهای کوچکتر تقسیم‌بندی شده‌اند و بعضاً عناوینی متناسب برای آنها انتخاب شده است.

دوستان فایل مناسب برای اضافه کردن به گنجور رومیزی را از اینجا دریافت کنند.

۶۰ غزل دیگر از عرفی شیرازی

به لطف همراه گرامی گنجور جناب رسته که آثار عرفی شیرازی به لطف بی‌چشمداشت ایشان از طریق گنجور در اختیار علاقمندان قرار گرفته (اینجا و اینجا را ببینید) ۶۰ غزل دیگر از این شاعر پارسی‌گو شامل فهرست غزلیات منتهی به حروف «ذال» تا «لام» در گنجور در دسترس قرار گرفت (غزلیات عرفی) تا حجم آثار در دسترس این شاعر در گنجور به 2703 بیت برسد.

مجموعهٔ اشعار کامل‌تر عرفی برای گنجور رومیزی را از این نشانی نشانی دریافت کنید.

رباعیات خلیل‌الله خلیلی

به لطف همراه گرامی گنجور، آقای مهران صمدنژاد، مجموعه‌ای از رباعیات و دوبیتیهای خلیل‌الله خلیلی شاعر معاصر افغانی در دسترس قرار گرفت.

خلیل‌الله خلیلی

کاربران گنجور رومیزی با دریافت این فایل می‌توانند آن را به برنامهٔ خود اضافه کنند.

پایگاه داده‌های مشترک برای گنجور رومیزی و ساغر

در نوشتهٔ اعلان انتشار ویرایش ۲.۲ گنجور رومیزی اشاره شد که در این ویرایش می‌توانید مسیر فایل پایگاه داده‌های برنامه را (در هنگام نصب) انتخاب کنید. این قابلیت، علاوه بر حل مشکل دسترسی نوشتن در مسیر نصب برنامه در ویندوز ۷ امکان این را می‌دهد که برای گنجور رومیزی و ساغر از یک فایل پایگاه داده استفاده کنید.

فایل پایگاه داده‌های ساغر و گنجور رومیزی ganjoor.s3db نام دارد که در ویرایشهای قدیمی گنجور رومیزی در مسیر آن قرار داشت. برای تغییر مسیر این فایل در آخرین ویرایش، در محل نصب گنجور رومیزی فایل ganjoor.ini را باز کنید. مسیر دایرکتوری حاوی فایل یاد شده در برابر عنوان Path نوشته شده است که می‌توانید با تغییر آن به مسیر مورد نظر خود و ذخیرهٔ آن، مسیر پایگاه داده‌های برنامه را تغییر دهید. دقت کنید که لازم است خودتان فایل ganjoor.s3db را به مسیر مورد نظرتان کپی کرده باشید.

محتوی مسیر نصب گنجور رومیزی
محتوای فایل ganjoor.ini

مسیر پیش‌فرض پایگاه داده‌های ساغر در حال حاضر، در درایو ویندوز (عموماً C:‎)، زیرشاخهٔ کاربری که برنامه را نصب کرده (در ویندوز ۷ و ویستا این زیرشاخه Users و در ویندوز XP این زیرشاخه Documents And Settings نام دارد)، زیرشاخهٔ Pojh، زیرشاخهٔ Saaghar است. به عنوان نمونه برای من با کاربر ویندوزی hamid مسیر این زیرشاخه به این صورت است (ویندوز ۷):

C:\Users\hamid\Pojh\Saaghar

لذا من در صورتی که بخواهم از یک فایل پایگاه داده‌های مشترک برای هر دو برنامه استفاده کنم باید محتوای فایل ganjoor.ini را به این شکل تغییر دهم:

Path=C:\Users\hamid\Pojh\Saaghar

اگر نصاب کامل گنجور رومیزی را در اختیار دارید، امکان تعیین مسیر پایگاه داده‌های برنامه را در حین نصب دارید:

انتخاب مسیر پایگاه داده‌ها در نصاب کامل گنجور رومیزی

توجه داشته باشید که نصاب گنجور رومیزی در صورت وجود فایل ganjoor.s3db در مسیر انتخاب شده از قبل آن را رونویسی نمی‌کند و همان فایل قدیمی را نگه می‌دارد. در صورتی که تمایل دارید فایل قدیمی رونویسی شود باید خودتان پیش از نصب گنجور رومیزی آن را حذف کنید.

ویرایش ۲.۲ گنجور رومیزی و غزلیات بیدل

ویرایش ۲.۲ گنجور رومیزی علاوه بر چند رفع اشکال شامل قابلیتهای جدیدی از جمله حذف خودکار آثار قدیمی یک شاعر در هنگام اضافه کردن مجموعه اشعار جدید از او، امکان تغییر مسیر پایگاه داده‌های برنامه با ویرایش مسیر آن در فایل ganjoor.ini واقع در مسیر نصب (و در نتیجه امکان نصب برنامه در مسیر Program Files در ویندوز ۷ و ویستا و همینطور امکان استفادهٔ مشترک با ساغر از یک فایل پایگاه داده) و پشتیبانی از نمایش زندگینامهٔ شاعران همانند ساغر است. برای مشاهدهٔ اطلاعات بیشتر اینجا را ببینید. نصاب به‌روزرسانی را از اینجا دریافت کنید.

مجموعهٔ کامل غزلیات بیدل را نیز می‌توانید از اینجا دریافت کنید و به گنجور رومیزی خود اضافه کنید. توصیه می‌شود پیش از اضافه کردن این مجموعه برنامهٔ خود را به‌روز کنید.