چیزی حدود ۱۶۰۰۰ بیت از غزلیات بیدل که به شیوهٔ OCR به گنجور اضافه شده وزنیابی شد. آمار اوزان این حجم از غزلیات بیدل را در این صفحه ببینید. در حین وزنیابی، برخی اشکالات او.سی.آری در محل قافیهها را نیز دیدم و رفع کردم و غزلیات را با توجه به اشکالات رفع شده از نو مرتب کردم. از این جهت ترتیب غزلیات بیدل در گنجور رومیزی با سایت ناهمگون شده است. پروژهٔ بازبینی خروجیهای OCR نیز در جریان است. تا به حال عموم بریدهها حداقل دو بار دیده شدهاند و دور سوم بازبینی در حال انجام است. به لطف این نوشته از وبلاگ ITLine چند روزی تعداد بازبینیهای روزانه زیاد شد و روند کار سرعت گرفت و این در پیشرفت سریعتر کار مؤثر بود. در هر حال، در حال حاضر تعداد بازبینیهای روزانه به حالت عادی بازگشته و با این روند احتمالاً سه یا چهار هفتهٔ دیگر تا تکمیل بازبینی اشعار جلد دوم غزلیات بیدل زمان داریم. پس از تکمیل این مرحله، گزارشی از آمار بازبینیهای این بخش تهیه خواهم کرد. در کل، دقت بازبینی این بخش به نظرم بهتر از بخشهای قبلی است.
بایگانی دسته: گنجور
تغییر بستهٔ میزبانی گنجور
متأسفانه در سه ماه اخیر هزینهٔ پنهان میزبانی گنجور در قالب بستهٔ خریداری شده از شرکت مدیاتمپل (سرویس گرید که راهکار ابتکاری این شرکت برای میزانی اشتراکی است) افزایش صعودی داشت و برای سرویس میزبانیی که قیمت آن سالانه ۲۰۰ دلار است در عرض سه ماه حدود ۱۸۰ دلار جریمهٔ مصرف بیش از حد منابع پرداخت شده بود (که البته هزینهٔ آن از محل کمکهای مالی دوستان تأمین شده بود).

با توجه به مشکل به وجود آمده و این که روند افزایشی این هزینهٔ پنهان به زودی به نقطهای میرسید که تأمین آن امکان نداشت تصمیم گرفتم با خرید یک سرور مجازی از همین شرکت (که انشاالله هزینهٔ پنهان ندارد 😉 ) مشکل را حل کنم. در هر حال، امروز انتقال فایلها و پایگاه دادهها تکمیل شده و گنجور روی سرور جدید در دسترس قرار گرفته است.
گزارش دوم روند بازبینی خروجیهای OCR
در گزارش پیشین با توجه به روند جاری پیشبینی کرده بودم که چیزی حدود یک ماه بعد اولین خروجیهای بازبینی احتمالاً برای در دسترس قرار گرفتن از طریق سایت آماده میشوند. در هر حال، حالا چیزی بیش از یک ماه از آن موقع گذشته و هنوز به مرحلهٔ تولید خروجی نرسیدهایم. علت هم آن بوده که تعداد زیادی از تکههای متن هنوز حتی یک بار هم بازبینی نشده بودند. حدود دو هفته پیش تغییراتی در کد بازبینی دادم تا بازبینینشدهها با اولویت بالاتری در معرض بازبینی قرار گیرند و با این روند امیدوارم سریعتر به مرحلهٔ تولید خروجی برسیم.
برای اطلاع دوستان از روند پیشرفت کار: تا این لحظه ۴۴۳۰۳ تکه (حدود ۸۳ درصد) از کل تصاویر حداقل یک بار بازبینی شدهاند که از این تعداد ۱۸۳۲۱ تکه بیش از یک بار بازبینی شدهاند. مجموعاً ۴۲۴۳ آی.پی مستقل از دوستانی که مشارکت کردهاند به ثبت رسیده. نمودارهای زیر روند مشارکت بازبینها را در ادامهٔ آمارهای گزارش اول نشان میدهند:


تلفظ صحیح گنجور
هر از چند گاه دوستانی تماس میگیرند و متذکر میشوند که تلفظ «گنجور» نه ganjoor که ganjvar است و من در انتخاب نام دامنه اشتباه کردهام. منشأ این قضیه گویا یک یا چند فرهنگ فارسی است که تلفظ این واژه را به این نحو ثبت کرده یا ارجاع به ریشهٔ این واژه است که آن را مرکب از «گنج» و «بر» میدانند و اعتقاد دارند اصل این واژه «گنجبَر» است و وقتی «ب» به «و» تبدیل میشود باید آن را گنجوَر بخوانیم. در هر صورت، برای ارجاع بعدی دوستان مطلبی را که چندباره در پاسخ به ایمیلهای دوستان نوشتهام اینجا دوباره مطرح میکنم:
اوّل آن که در نسخهٔ آنلاین لغتنامهٔ دهخدا هر دو تلفظ برای گنجور ثبت شده (تلفظ اول نشان دهندهٔ آن است که واو حرکت ندارد و باید کشیده خوانده شود):
راهنمای بعدی برای این که این واژه باید ganjoor تلفظ شود یا حداقل تلفظ این واژه به این صورت اشتباه نیست آن است که توجه کنیم دو تلفظ مورد بحث (ganjoor و ganjvar) هموزن نیستند، لذا اگر در شعر موزونی بتوان این واژه را ganjoor خواند دیگر نمیتوان آن را ganjvar خواند زیرا وزن شعر به هم میریزد و بالعکس. علاوه بر آن میتوان به این نکته توجه کرد که شاعران کهن این واژه را در جایگاه قافیه با چه کلماتی همقافیه آوردهاند.
با توجه به نکات یاد شده شاهدهای لغتنامه برای این کلمه را در این صفحه و کاربرد آن را در شعر شاعران گنجور بازخوانی کنید و سعی کنید یک مورد را بیابید که در آن بشود این واژه را ganjvar خواند و وزن شعر درست بماند و شعر موزون خوانده شود!
گزارشی از روند پیشرفت بازبینی خروجیهای OCR
در مرحلهٔ اول کار بازبینی چشمی خروجیهای OCR تعداد ۵۳۰۳۷ تکه تصویر متن بریده شده از جلد اول غزلیات بیدل و قصاید قاآنی در معرض بازبینی قرار گرفته که تا امروز با گذشت ۱۸ روز از فراخوان برای همکاری دوستداران ادبیات فارسی حدود ۴۷ درصد از این تصاویر (۲۴۸۵۲ تکه) حداقل یک بار بازبینی شدهاند (۱۴ درصد از کل تصاویر بیش از یک بار بازبینی شدهاند). آمار روزانهٔ بازبینیها از طریق این صفحه در دسترس قرار دارد.
تعداد ۲۳۰۷ آی.پی مجزا برای بازبینها به ثبت رسیده است. تصویر زیر نشانگر آمار ثبت شده برای بازدیدها از سیستم بازبینی توسط سیستم آمارگیری گوگل است:

جدول زیر آمار تفکیکی کشورهای بازدیدکنندهها را به ترتیب تعداد صفحات بازدید شده به ازای هر نفر نشان میدهد.

از همهٔ دوستانی که در این کار مشارکت کرده و میکنند تشکر میکنم. با روند فعلی به نظر میرسد تا در دسترس قرار گرفتن اولین خروجی این همکاری در سایت باید چیزی حدود یک ماه دیگر فاصله داشته باشیم. طبق برنامهٔ فعلی در مرحلهٔ دوم باقیماندهٔ غزلیات بیدل (جلد دوم) و دیوان قاآنی و احتمالاً در مرحلهٔ سوم دیوان کامل ملکالشعرای بهار برای بازبینی در دسترس قرار خواهند گرفت.
سیستم بازبینی چشمی خروجیهای او.سی.آر
پیشتر اشاره کرده بودم که قصد دارم به کمک OCR دامنهٔ دادههای موجود در گنجور را گسترش دهم و کار را هم با اضافه کردن کتاب کوچکی از سنایی غزنوی، قسمتی از غزلیات بیدل دهلوی و چند قصیده از قاآنی شروع کرده بودم.
قبلاً هم گفته بودم که اضافه کردن اشعار با استفاده از OCR، غیر از امکانات و زمانی که برای اسکن و اجرای پردازش OCR روی ورودیها و دریافت خروجی نیاز دارد نیاز به یک کار چشمی پر زحمت دارد تا دقت خروجیها به سطح قابل قبول برسد. گفته بودم که برنامهای دارم برای آن که علاقمندان گنجور را در این کار به همیاری دعوت کنم و با استفاده از مشارکت آنها سرعت و دقت گسترش دامنهٔ دادهها افزایش یابد.
الان، طرح سادهای آماده کردهام برای آن که به کمک آن این امر را محقق کنم. علاقمندان با مراجعه به این نشانی میتوانند با بازبینی خروجیهای OCR به گسترش دامنهٔ دادههای گنجور کمک کنند. سیستم طراحی شده بر اساس تعداد رأیهای کاربران به متون کار میکند و نهایتاً با غربال پررأیترین گزینهها خروجیها را تولید خواهم کرد. اگر اشتباه کردید: اشتباه تایپی یا انتخاب اشتباه، نگران نباشید! علاقمندان دیگر نیز خروجیها را میبینند و اشتباه شما را با رأیهایشان به متون درستتر تصحیح میکنند. فقط لطفاً در صورتی که صفحهکلید فارسی ندارید در این کار مشارکت نکنید! ورود متون به صورت فارگلیسی هیچ کمکی نمیکند.
فعلاً خروجیهای باقیماندهٔ جلد اول غزلیات بیدل دهلوی در این سیستم در دسترس قرار دارند و به زودی باقیماندهٔ دیوان قاآنی را نیز در این سیستم در معرض بازبینی علاقمندان قرار میدهم.
گنجور رومیزی در روزنامهٔ جام جم
روزنامهٔ جام جم در ضمیمهٔ روزهای یکشنبهٔ این هفتهٔ خود (کلیک) گنجور رومیزی را معرفی کرده (اینجا) و سایت گنجور را هم در ستون لینکدونی همین ضمیمه برای بازدید به خوانندگان خود پیشنهاد کرده است.
پیشتر، تلویزیون فارسی BBC نیز در برنامهٔ «کلیک» گنجور را به بینندگان خود معرفی کرده بود.
مشکلات سایت
به دنبال مشکلاتی که از بیست و پنجم اردیبهشت برای سایت گنجور پیش آمد (اینجا را ببینید)، شرکت ارائه دهندهٔ خدمات میزبانی پیشین، دسترسی به سایت را قطع کرد. پس از پیگیری، شرکت مزبور اعلام کرد که به علت فشاری که این سایت به سرورهایش میآورد دیگر نمیتواند به گنجور خدمات بدهد.
برای اطمینان از تهیهٔ یک سرویس میزبانی مطمئن تصمیم گرفتم به کمک یکی از دوستان ساکن خارج کشور خدمات میزبانی را از شرکت معتبر مدیاتمپل تهیه کنم. این امر دیروز محقق شد و اکنون سایت، پس از شش روز وقفه با استفاده از خدمات میزبانی این شرکت در دسترس قرار گرفته است.
از دوستانی که در این مدت، برای کمک در زمینهٔ میزبانی سایت تماس گرفتند تشکر میکنم.
از آنجا که بسیاری از محدودیتهای پیشین همچون محدودیت پهنای باند و فضا تا حدود زیادی با خرید سرویس میزبانی جدید رفع شده، تغییراتی در ساختار و نحوهٔ میزبانی منابع سایت داده خواهد شد. سعی میکنم روی بهینهسازی مصرف منابع سایت نیز کار کنم تا کمتر به مشکلاتی که میزبان قبلی ادعا داشت گنجور عامل آنهاست بر بخوریم.
گنجور
هدیهای ارزشمند از دوستی گرامی
ساغر گدازان از آهن پاک
تا کودک خاک شد گریه آموز
بر چهر بگشاد دریا و کولاک
دریای جنبان، گهواره ی جان
خون در دل افکند، شور شغبناک
زایید جان را، جان خودافزا
پر شور و غوغا، هم چست و چالاک
در قطره ی خون دریا چکانید
هر قطره ی آن شد رشک افلاک
ماهی و یونس بر ساحل افتاد
دریا و ماهی بر دل زده چاک
دریا فروماند بر ساحل جان
افتان و خیزان صیدی به فتراک
ای یونس جان چون برگشودی
از جان مضطر، تاریک هتّاک؟
از شبنم عشق گِل کن ز خاکم
تا گُل بروید از خاک نمناک
دریای دردیم، نیمی ز درمان
درمان نجوییم جانا ز تریاک
در سلک جانیم، درد از همان به
درد از تو خواهیم، ایّاک ایّاک
ما مکر و حیلت کمتر شناسیم
بر ما ببخشا راه خطرناک
داریم گنجی از بوم ایران
دشمن فراوان، مسکین و سفّاک
گنج مغان است، گنجور جان بخش
بخشوده بر ما شوری طربناک
جام جم است این درج معانی
بگشای دامن، نی دارد امساک
بهتر ز گنجور، بحر معانی
هرگز ندیدست این تار شبّاک
کثرت شتابان زی شاه وحدت
شد چشم ما سیر از لطف لولاک
از نام و نامی ما برگذشیم
بر دل نشستیم، هم شاد و غمناک
ای خسرو جان، روی از در تو
هرگز نتابیم، حاشاک حاشاک
آتش میافکن در خار و خاشاک
با چشم بیدل ، غافل ز آتش
شد جان رسته، چون خار بی باک
شوق جلاها خاکسترم کرد
یک دیده گریان، یک دیده ضحاک
الف. رسته
۱۹ بهمن ۱۳۸۸
۸ فوریه ۲۰۱۰
* اولین مصرع از اولین غزل دیوان بیدل این چنین است: آیینه بر خاک زد صنع یکتا
**بیدل؛ همان غزل
تکمیل وزنگذاری اشعار اقبال
به روال مجموعههای پیشین، اشعار اقبال لاهوری نیز وزنگذاری شدند. آمار اوزان اشعار اقبال را در این صفحه میتوانید ببینید و آمار کلی اشعار نیز با اضافه شدن آمار اشعار اقبال بهروز شد. با توجه به آن که بعضی از بخشهای منظومههای اقبال چندوزنی هستند و در سیستم فعلی تنها میشود برای یک بخش، یک وزن را تعیین کرد این آمار چندان دقیق نیست.




