از روز آخر اردیبهشتماه دامنهٔ اصلی سایت گنجور در ایران فیلتر شده است. توضیحات بیشتری در اینجا آمده است.
بایگانی دسته: گنجور
گزارش میاندورهای روند بازبینی خروجیهای OCR دیوان ملکالشعرای بهار
حدود چهار ماه از آغاز بازبینی خروجیهای OCR دیوان ملکالشعرای بهار میگذرد. همچنان که پیشتر اشاره شده بود در این گام ۴۵۷۵۹ تصویر بریده و OCR شده از دیوان ملکالشعرای بهار (که در حال حاضر تنها حدود ۱۰۰۰ بیت از اشعارش در گنجور در دسترس است) برای بازبینی در دسترس قرار گرفته است.
تا به حال و پس از گذشت نزدیک به چهار ماه، ۷۱۳۰۲ مورد بازبینی روی این تصاویر صورت گرفته که سهم ۲۰۴۰۱ تکه (حدود ۴۵ درصد) از تصاویر کمتر از دو بار، سهم ۲۳۳۹۳ تکه (۵۱ درصد) دقیقاً دو بار و سهم ۱۹۶۵ مورد (۴ درصد) سه بار و بیشتر بازبینی بوده است. پایان بازبینی زمانیست که اکثریت تصاویر حداقل سه بار بازبینی شده باشند و با روند کنونی به نظر میرسد تا آن زمان سه یا چهار ماه دیگر فاصله داشته باشیم.
تعداد ۴۵۶۱ آی.پی مجزا برای بازبینها به ثبت رسیده است. تصاویر زیر نشانگر آمار ثبت شده برای بازدیدها از سیستم بازبینی توسط سیستم آمارگیری گوگل است:


از دوستانی که با این شیوه دقایقی از وقت روزانهشان را به ادبیات فارسی اهدا میکنند بار دیگر به سهم خودم تشکر میکنم.
تغییر اسکریپت جستجو در لغتنامهٔ دهخدا
اسکریپت جستجو در لغتنامهٔ دهخدا را تغییر دادم. اسکریپت جدید باعث میشود با دو بار کلیک بر روی کلمات (یا انتخاب آنها با ماوس) تصویری بالای آنها ظاهر شود که کلیک بر روی آن باعث جستجوی کلمهٔ انتخاب شده در سایت لغتنامه میشود.

علت تغییر اسکریپت قدیمی، ناسازگاری آن با مرورگرهای کروم، سافاری و اپرا بود. منبع اسکریپت جدید اینجاست.
علاوه بر آن اسکریپتی را که برای فارسی کردن شمارههای لیست اشعار در صفحات استقبال به کار گرفته شده بود (اینجا را ببینید) با اسکریپت نوشته شده توسط آقای بهروز ودادیان جایگزین کردم (اینجا و اینجا را ببینید). از ایشان بابت زحمتی که برای آزمایش اسکریپت جدید جستجو و نوشتن اسکریپت جدید لیستهای مرتب کشیدهاند تشکر میکنم.
گنجور در ایرانصدا
روز چهارشنبه بیستم بهمن ماه، ساعت ۱ بعدازظهر در برنامهٔ زندهٔ رادیو-تیوی اینترنتی ایرانصدا، گنجور به عنوان نمونهای از مشارکت کاربران فارسیزبان اینترنت در توسعهٔ محتوای وب فارسی مورد بحث و بررسی قرار خواهد گرفت. محور عمدهٔ بحث -آن طور که به من به عنوان مهمان برنامه اطلاع داده شده- احتمالاً سیستم بازبینی خروجیهای OCR خواهد بود اما سعی خواهم کرد در صورت نزدیکی با موضوع بحث در مورد صورتهای دیگر مشارکت دوستداران ادبیات فارسی در پیشبرد گنجور –گسترش دامنهٔ دادههای گنجور با استفاده از ویرایشگر گنجور رومیزی، ساغر، کمکهای مالی و …- نیز مطالبی را طرح کنم. پیشتر کم و بیش ساز و کار سیستم بازبینی خروجیهای OCR در تازههای گنجور شرح داده شده اما احتمالاً در یک برنامهٔ رادیویی مجال بیشتری برای بحث در این مورد وجود دارد و این میتواند برای دوستانی که در زمینهٔ نحوهٔ کارکرد این سیستم سؤال داشتند جالب باشد. دوستان در صورتی که سؤال یا پیشنهاد خاصی پیرامون گنجور و متعلقاتش دارند که به نظرشان طرح آن در این گفتگو -با محوریت مشارکت فارسیزبانان در توسعهٔ وب فارسی- مناسب است لطفاً مطرح کنند تا در صورت تناسب با بحث راجع به آن صحبت شود.
پایان مرحلهٔ سوم بازبینی خروجیهای OCR
مرحلهٔ سوم بازبینی خروجیهای OCR که شامل بازبینی ۶۴۱۱ خط شعر (و نثر توضیحی) بریده شده از دیوان قاآنی (باقیماندهٔ اشعار او شامل غزلیات، اشعار ترکیبی، قطعات و رباعیات) بود با ۱۹۷۸۶ مورد بازبینی پایان یافت. در این مرحله بیش از ۹۴ درصد تصاویر حداقل سه بار بازبینی شدهاند (۳۴۴ مورد دو بار، ۱۰۲۹ مورد بیش از سه بار و باقی دقیقاً سه بار بازبینی شدهاند).
در مجموع ۱۱۴۶ آی.پی مستقل از دوستانی که در این مرحله مشارکت کردهاند به ثبت رسیده است. نمودارهای زیر روند بازبینی را در بازهٔ زمانی یک ماههٔ این مرحله نشان میدهند.


با پایان این مرحله در مجموع حدود ۲۰۵۰۰ بیت شعر از قاآنی در سایت در دسترس قرار گرفته است (اشعار قاآنی در گنجور) و کار ما با دیوان قاآنی تمام شده است. در میان خروجیها بعضاً متون توضیحی راجع به واژههای مشکل نیز وجود داشته که این موارد نیز به مرور در قالب حاشیهها به سایت اضافه خواهند شد.
نسخهٔ مخصوص گنجور رومیزی از این نشانی قابل دریافت است. توضیح لازم آن که به دلیل مشکلات پیش آمده برای سایت میزبان گنجور رومیزی، فعلاً به دلیل دسترسی محدودم به امکانات این سایت، امکان بهروزرسانی فهرست شعرهای جدید (برای یافتن نشانی دریافت از طریق اجرای فرمان «دریافت فهرست مجموعههای اشعار» از منوی «مجموعهها»ی برنامه) را ندارم و پس از حل این مشکلات این فهرست را نیز بهروز خواهم کرد.
مرحلهٔ چهارم بازبینی خروجیهای OCR با در دسترس قرار گرفتن ۴۵۷۵۹ تصویر از دیوان ملکالشعرای بهار (که در حال حاضر تنها حدود ۱۰۰۰ بیت از اشعارش در گنجور در دسترس است) از چهارم بهمنماه آغاز شده است.
گنجور رومیزی ویرایش ۲.۳ و سفرنامهٔ ناصرخسرو
در ویرایش ۲.۳ گنجور رومیزی همان گونه که یکی از دوستان پیشنهاد کرده بود دامنهٔ عملکرد دکمهٔ فال را میتوان به گونهای تنظیم کرد که بخشهای مختلف از آثار شاعران متفاوت را پوشش دهد.


از آنجا که نمایش فهرست محتویات متون منثور با نمایش اولین پاراگراف آنها در فهرست کند بود در این ویرایش متون پاراگرافهای اول بلند بریده میشود و این صفحات سریعتر نمایش داده میشوند.

بهینهسازیها و رفع اشکالهای جزئی دیگری هم در این ویرایش صورت گرفته است که از آن جمله میتوان به مقایسههای بیشتر در هنگام اضافه کردن مجموعههای اشعار جهت جلوگیری از ورود دادههای تکراری یا نامعتبر به برنامه و همینطور انتقال فرمانهای «اضافه کردن مجموعههای اشعار …» و «دریافت فهرست مجموعههای اشعار» به منوی جدید «مجموعهها» اشاره کرد.
نصاب بهروزرسانی این ویرایش را از این نشانی دریافت کنید.
علاوه بر این سفرنامهٔ ناصر خسرو با استفاده از فایل قابل دریافت از سایت تصوف ایران (این صفحه) و با بخشبندی در قالب صد بخش مجزا در جهت تسهیل مطالعه به سایت اضافه شد (سفرنامهٔ ناصر خسرو در گنجور). مجموعهٔ مناسب جهت گنجور رومیزی را از این نشانی دریافت کنید.
یادآوری مجدد: در این ویرایش فرمان «اضافه کردن مجموعههای اشعار …» دیگر در منوی «ابزارها» قرار ندارد و به منوی جدید «مجموعهها» منتقل شده است.
پایان مرحلهٔ دوم بازبینی خروجیهای OCR
مرحلهٔ دوم بازبینی خروجیهای OCR که شامل بازبینی ۳۳۱۶۰ خط شعر بریده شده از جلد دوم غزلیات بیدل بود با ۱۰۵۷۷۵ مورد بازبینی و در حالی پایان یافت که از لحاظ آماری، تعداد بازبینیها به ازای هر تصویر پراکندگی بسیار مناسبتری از مرحلهٔ اول دارد و در حالی که در مرحلهٔ قبل ۴۶ درصد موارد تنها یک بار بازبینی شده بودند، در این مرحله بیش از ۹۹ درصد تصاویر حداقل سه بار بازبینی شدهاند (۲۶۹ مورد کمتر از سه بار، ۴۳۷۵ مورد بیش از سه بار و باقی دقیقاً سه بار بازبینی شدهاند). ۵۳۵۰۷ مورد (حدود ۵۰ درصد)، همان متن OCR شده را بدون کوچکترین تغییری تأیید کردهاند (برای ۲۱۲۷۲ از ۳۳۱۶۰ تصویر یعنی ۶۴ درصد تصاویر)، ۳۵۰ مورد از تصاویر ناخوانا گزارش شدهاند و ۶۹۰ تصویر «بد بریده شده» ثبت شدهاند.
در مجموع ۴۲۳۱ آی.پی مستقل از دوستانی که مشارکت کردهاند به ثبت رسیده است. نمودارهای زیر روند بازبینی را نشان میدهند.


با پایان این مرحله، غزلیات بیدل دهلوی تقریباً به طور کامل (حدود ۳۲۳۳۰ بیت در قالب ۲۸۲۷ غزل) روی سایت در دسترس قرار گرفته است (صفحات معدودی از این کتاب در حین اسکن و بر اثر کشش همزمان چند برگه توسط اسکنر از قلم افتاده است و این مشکل را من در بازبینی نهایی متوجه شدم). این اشعار بر اساس حروف آخر روی از نو مرتب شدهاند (ترتیب اولیهٔ نسخهٔ چاپی، بر اساس حرف آخر روی و سپس حروف ابتدایی غزل بود که عملاً بسیار ناکارآمد است).
تعداد زیاد غزلیات بیدل باعث شده صفحهٔ فهرست آنها سنگین شود که در فرصت مناسب همانند فهرست غزلیات شمس آن را به چند صفحهٔ مجزا میشکنم تا این مشکل حل شود.
نسخهٔ مخصوص گنجور رومیزی را پس از اعمال چند تغییر بر روی برنامه، جهت سازگاری بیشتر آن با ساغر و همینطور رفع مشکلی که در حال حاضر برای اضافه کردن مجموعههای شامل اشعار یک شاعر از پیش موجود وجود دارد ارائه خواهم کرد.
مرحلهٔ سوم بازبینی، برای ۶۴۱۲ تصویر از اشعار قاآنی (غزلیات، قطعات و سایر اشعار بعد از قصاید) از پنجشنبهٔ هفتهٔ پیش آغاز شده است.
از لطف و زحمت تمامی دوستانی که تا به حال در این کار مشارکت کردهاند بار دیگر و به سهم خودم تشکر میکنم.
صفحهٔ گنجور در فیسبوک
یکی از نیازمندیهای پیشرفت گنجور مشارکت هر چه بیشتر علاقمندان است. بازبینی خروجیهای OCR، گزارش خطاهای املایی و تایپی و همینطور حاشیهنویسی تحقیقی بر اشعار، آماده کردن مجموعههای اشعار برای گنجور رومیزی و … همه و همه نیازمند مشارکت علاقمندان است.
پیشتر دوستان پیشنهاد کرده بودند که در فیسبوک صفحهای برای گنجور بسازم تا از طریق آن گنجور به کاربران این سایت معرفی شود. هماکنون این صفحه راه افتاده (نشانی: http://www.facebook.com/ganjoor) و دوستان میتوانند از طریق آن فعالیتهای گنجور را پیگیری کنند و در پیشرفت آن با مشارکت در معرفی گنجور و فعالیتهای دوستان در آن سهیم باشند.
در ضمن، با توجه به جایگزینی موقت آگهی بازبینی خروجیهای OCR با آگهی صفحهٔ فیسبوک تعداد بازبینیهای روزانه کاهش پیدا کرده، حدود ۶۰۰۰ تکه از حدود ۳۴۰۰۰ تکه خروجی OCR مربوط به غزلیات بیدل کمتر از ۳ بار بازبینی شدهاند که در صورت بازبینی این تکهها مرحلهٔ بعد کار آغاز خواهد شد. این نکته را جهت یادآوری این مطلب گوشزد کردم که دوستان احیاناً تصور نکنند کار رها شده. هنوز نیازمند صرف دقایق ارزشمندتان هستیم. احتمالاً در هفتهٔ آینده آگهی مزبور به جای خودش برمیگردد. صفحهٔ بازبینی را همیشه در نشانی http://v.ganjoor.net در دسترس دارید.
زندگینامهٔ شاعران در گنجور
اضافه شدن مختصری دربارهٔ زندگینامهٔ شاعران، قرن و محل زندگیشان و اطلاعاتی از این دست از جمله پیشنهادها و درخواستهای تعداد زیادی از دوستان بوده و از آنجا که من همواره در این فکر بودهام که این کار را به شیوهای غیر از رونویسی از سایتها و منابع اینترنتی (دم دستترین راه) انجام دهم تا به حال انجام نشده. در هر حال یکی از همراهان همیشگی گنجور، علیرغم مشغلهٔ زیادشان از مدتی پیش تهیهٔ زندگینامههای مختصر و چندخطی شاعران برای گنجور را آغاز کردهاند. تعدادی از این زندگینامهها آماده شده و در صفحات اصلی مربوط به هر یک از آنها در دسترس قرار گرفتهاند. منابع مورد استفادهٔ ایشان برای تهیهٔ این مطالب را پس از تکمیل کار ذکر خواهم کرد. از ایشان و همهٔ دوستانی که برای بهبود گنجور از وقت گرانبهایشان مایه میگذارند به سهم خود تشکر میکنم. دوستان در صورتی که پیشنهادی در مورد این متون دارند یا راجع به آنها نظر انتقادی دارند همینجا مطرح کنند.
پایان وزنیابی قسمت اول غزلیات بیدل
چیزی حدود ۱۶۰۰۰ بیت از غزلیات بیدل که به شیوهٔ OCR به گنجور اضافه شده وزنیابی شد. آمار اوزان این حجم از غزلیات بیدل را در این صفحه ببینید. در حین وزنیابی، برخی اشکالات او.سی.آری در محل قافیهها را نیز دیدم و رفع کردم و غزلیات را با توجه به اشکالات رفع شده از نو مرتب کردم. از این جهت ترتیب غزلیات بیدل در گنجور رومیزی با سایت ناهمگون شده است. پروژهٔ بازبینی خروجیهای OCR نیز در جریان است. تا به حال عموم بریدهها حداقل دو بار دیده شدهاند و دور سوم بازبینی در حال انجام است. به لطف این نوشته از وبلاگ ITLine چند روزی تعداد بازبینیهای روزانه زیاد شد و روند کار سرعت گرفت و این در پیشرفت سریعتر کار مؤثر بود. در هر حال، در حال حاضر تعداد بازبینیهای روزانه به حالت عادی بازگشته و با این روند احتمالاً سه یا چهار هفتهٔ دیگر تا تکمیل بازبینی اشعار جلد دوم غزلیات بیدل زمان داریم. پس از تکمیل این مرحله، گزارشی از آمار بازبینیهای این بخش تهیه خواهم کرد. در کل، دقت بازبینی این بخش به نظرم بهتر از بخشهای قبلی است.

