تاجیکستان علیرغم مردم فارسیزبانش مخاطبان زیادی در گنجور ندارد و این البته به نظر میرسد ناشی از تفاوتی است که خط سیریلیک ایجاد کرده باشد.
سالها پیش در گنجور قابلیتی ایجاد کردم که برای مخاطبان با زبان مرورگر تاجیکی نسخهٔ ترجمهٔ گوگل از فارسی به خط تاجیکی را نمایش بدهیم. این قابلیت تأثیر قابل مشاهدهای روی وضعیت مخاطبان تاجیکستانی گنجور نگذاشت و بعدتر به دلیل مسائل فنی ناخواستهای که ایجاد کرد آن قابلیت را حذف کردم.
چندی پیش در مصاحبههای مربوط به کتاب گنجور: قدرت بینهایت کوچکها و در بحث مخاطبان گنجور در مناطق مختلف جهان مهدی سلیمانیهٔ عزیز در این مورد پرسید و من را دوباره به یاد این مسئله انداخت.
علت آن که نسخهٔ ترجمهٔ گوگل گنجور مخاطب پیدا نمیکند میتواند آن باشد که عمدهٔ ورودیها و آشنایی اولیهٔ مخاطبان از راه خود گوگل و موتورهای جستجوست و چون نسخهٔ ترجمهٔ گوگل در نتایج جستجو ظاهر نمیشود مخاطب، گنجور را نمییابد.
از این جهت به نظرم رسید با ایجاد یک سایت مستقل برای مخاطبان خط تاجیکی میتوانیم مسئلهٔ کشفپذیر بودن گنجور را حل کنیم.
از آنجا که در خط تاجیکی کسرهٔ اضافه بر خلاف خط فارسی همه جا نوشته میشود لزوماً خروجی فعلی ایدهآل نیست. اما شروعی است برای بهبودهای آینده. امیدواریم به زودی به اضافه کردن امکاناتی چون جستجو، خوانش اشعار و نهایتاً ویرایشگر برای تصحیح اشکالات خط تاجیکی راه را برای استفادهٔ بیشتر و بهتر همزبانان تاجیک فراهم کنیم.
نسخهٔ فعلی امکان مرور سلسلهمراتبی آثار (نوار ناوبری بالا)، مشاهدهٔ شعر یا بخش بعد و مشاهدهٔ برگردان گوگل از نسخهٔ کامل صفحهٔ متناظر در گنجور را فراهم میآورد.
با وجود آن که سرویس ترجمهٔ گوگل کاری بیش از نویسهگردانی میکند و کلمات را با معادلهای آنها جایگزین میکند میتواند ابزار کمکی خوبی جهت دسترسی مخاطبان تاجیکی به منابع بیشتر باشد. از این جهت روی قسمتی از اشکالاتی که در نسخهٔ ترجمهٔ گوگل گنجور دیده میشد کار شده و اکنون در این نسخه بیشتر آیکونها و نمادهای تصویری به درستی نمایش داده میشوند.
لطفاً به دوستان تاجیک خود نسخهٔ تاجیکی گنجور را به نشانی tj.ganjoor.net معرفی کنید و اگر بازخورد و پیشنهادی در این زمینه داشتند آنها را ذیل همین نوشته منعکس بفرمایید.
امیدواریم به زودی همهٔ گنجور را در این نسخه پوشش دهیم و امکانات لازم برای ویرایش و بهبود توسط خود تاجیکها را ارائه کنیم.
در کنار آمارهای بسامد واژگان برای کل گنجور و هر سخنور و بخش امکان شمارش تعداد و فراوانی کلمات یک شعر نیز به بخش اطلاعات آن افزوده شده است که ممکن است به طور موردی به کار پژوهشگران بیاید. تصاویر زیر گویای روش دسترسی به و نحوهٔ استفاده از این قابلیت هستند.
امکان کوچکی به محاسبهگر ابجد افزوده شده که با استفاده از آن میتوان لینک به جستجوی جاری را مشاهده و در صورت نیاز از طریق نوار نشانیِ مرورگر کپی و ارسال کرد.
از آنجا که بیشترین بسامد از آن حروف ربط و واژگان کمتأثیر است برای کاهش نویز و واضحتر شدن اطلاعات معنیدار امکان حذف واژگان «کمهوادار» از آمار صد واژهٔ ابتدایی کلی یا همهٔ بخشها اضافه شده است. این واژگان را از میان دویست واژهٔ پربسامد کلی انتخاب کردهایم.
در شاهنامه چند بار از ایران نام برده شده؟ پرکاربردترین کلمه غیر از حروف ربط و افعال پرکاربرد در رباعیات خیام کدام کلمه است؟ در غزلیات سعدی بیشتر از واژهٔ «دلبر» استفاده شده است یا از واژهٔ «معشوق»؟ به نسبت حجم کل، درصد کاربرد کلمهٔ «عشق» در غزلیات شمس بیشتر است یا در غزلیات حافظ؟
«بسامد واژگان» در فهرستهای بخشهای گنجور برای پاسخگویی به این دسته سؤالات ایجاد شده است. البته کلمات بر اساس شکل آنها شمارش شدهاند و از این جهت «می» استمرار در کلمهٔ «میرود» با «می» به معنی شراب یک کلمه در نظر گرفته شدهاند. کلمات شمارش شده نیز لزوماً یک کلمه نیستند و بر حسب این که با چه رسمالخطی در گنجور نوشته شده باشند ممکن است قسمتی از یک کلمهٔ کامل (مثالش همان «می» در «میرود») یا ترکیب چند کلمه باشد مثل «دیگرست» که چون فاصلهای بین «دیگر» و «است» وجود نداشته یک کلمه محسوب شده. در جداسازی کلمات نیز فعلاً ترجیح دادهایم نیمفاصله را نیز مانند فاصله به عنوان جداساز کلمات در نظر بگیریم.
با وجود ایرادات یاد شده میتوان با استفاده از این ابزار، تقریبی از پاسخهای احتمالی برای پرسشهای طرح شدهٔ ابتدایی را به دست آورد.
شمارش کلمات فرایندی زمانبر است و تا پوشش همهٔ گنجور چند روزی طول خواهد کشید. در بخشهایی که کار شمارش کلماتشان تمام شده قسمتی به نام «بسامد واژگان» ظاهر میشود که به طور پیشفرض ۱۰۰ واژهٔ پربسامد آن بخش را به ترتیب نزولی بسامد نمایش میدهد. با تایپ کلمهٔ مورد نظر خود در کادر «جستجوی واژه» میتوانید بسامد، ردیف آن در فهرست این واژهها، تعداد و درصد تعداد آن به نسبت تعداد کل واژهها را مشاهده کنید. عدد «ردیف» واژهها لزوماً نمایانگر ترتیب از لحاظ بسامد نیست و تنها نمایانگر آن است که اگر فهرست صدواژهٔ ابتدایی تا واژهٔ جستجو شده ادامه پیدا میکرد در شماره ردیف آن چه عددی نوشته میشد.
با کلیک یا لمس لینک متناظر هر واژه میتوانید آن را در بخش جاری جستجو کنید.
بخش عمدهٔ محتوای گنجور از نرمافزارها و وبگاههای دیگر وارد شده است و در این زمینه علاقمندان ادبیات مدیون بزرگوارانی هستند که پیش و بیش از گنجور روی دیجیتالی کردن میراث ادب ایرانزمین سرمایهگذاری کردهاند.
منبع اولیه دیجیتال هر شعر در کادر اطلاعات داخل آن مشخص شده است.
البته در طول زمان و به همت کاربران و همراهان گنجور متون وارد شده تکمیل یا تصحیح شده و تغییر کردهاند و لزوماً دیگر با منبع اولیه همخوانی ندارند. پیشتر در صفحهٔ منابع گنجور فهرستی ثابت از این منابع را نگهداری میکردیم که با فواصل طولانی تکمیل میشد.
برچسبهای منابع دیجیتال گنجور را تکمیل کردیم و هماکنون همهٔ شعرها دارای برچسب منبع اولیه هستند. منابع را به سه دسته (۱. نرمافزارها و وبگاههای دیگر، ۲.همراهان گنجور و ۳.پروژهٔ بازبینی OCR) تقسیم کردیم و علاوه بر یک آمار دستهبندی شده بر این اساس، آمار ریز ورودی از منابع را شامل نام عزیزانی که به شکل فردی یا تیمی مجموعههای حجیمی را برای گنجور تایپ کرده بودند در دسترس گذاشتیم.
آمار کنونی فقط پوششدهندهٔ بخش منظوم گنجور است. امیدواریم در آینده آماری معادل را که پوششدهندهٔ بخش منثور و در نهایت همهٔ متون در دسترس از طریق گنجور باشد اضافه کنیم.
این فرایند هماکنون به پایان رسیده است. در پایان این فرایند هماکنون اشعار گنجور بر اساس ۳۹۵ کتاب PDF در دسترس از طریق نسکبان فهرستگذاری شدهاند.
منابع کاغذی آثار هر سخنور (شامل منابع در دسترس از طریق نسکبان و گنجینهٔ گنجور) نیز ذیل صفحهٔ خود آن سخنور فهرست شده است:
سرور نسکبان ارتقا و بهبود پیدا کرده و امیدوارم به زودی بتوانم روی بهبود کارایی جستجو در آن وقت بگذارم. فرایند تطبیق متن کتابهای نسکبان با گنجور هنوز ایدهآل نیست و جای کار دارد. منتهی وضعیت فعلی هم به لحاظ مستند کردن بخش قابل توجهی از متون گنجور گام بزرگ و مهمی محسوب میشود.
در صفحات معرفی شاعران، بخش نقل قولهای احتمالی آنان از دیگران و دیگران از آنان برای شاعرانی که با تعداد زیادی از شاعران دیگر ارتباط داشتند باعث شلوغی صفحاتشان شده بود. لینک به این صفحات را از حالت قبلی خارج کردم و آنها را در یک کادر (به طور پیشفرض بسته شده) به اسم «مشق شعر» تجمیع کردم. لینکها نیز با تصاویر شاعران جایگزین شدهاند.
بخش «آمار» نیز به طور پیشفرض بسته شده است تا کسانی که نیاز به مشاهدهٔ اطلاعات آن دارند آن را باز کنند و از شلوغی صفحه کاسته شود.
به جای لینک ساده به صفحات پیشنهاد تصاویر شاعران نیز اولین تصویر پیشنهاد شده در صورت وجود نمایش داده میشود. این تصویر برای مواردی که تصویر چهرهٔ گنجور از طراحی مشخصی برداشته شده باشد همان تصویر مرجع است.
مجمل (اگر حوصله ندارید پاراگرافهای بعد را بخوانید): در روزهای اخیر پای خیلی از اشعار گنجور میتوانید تصاویر مراجع چاپی آنها را مشاهده کنید. اگر لزوماً تصویر معرفی شده به عنوان «منبع کاغذی گنجور» با متن شعر همخوانی ندارد نگران نباشید این یک فرایند خودکار در حال تکمیل است که امید است در صورت فراهم شدن پایداری حداقلی در ارتباط اینترنتی داخل ایران زودتر به ثمر برسد و نتایج دقیقتر شود.
حدیث مفصّل: یکی از مهمترین اهداف پشت ایجاد نسکبان لینک کردن متون گنجور با منابع کاغذی آن بوده است. فرایندی که با توجه به حجم و تنوع بالای متون گنجور انجام آن به شکل دستی محتاج سالها کار نیروی انسانی است. این کار از این جهت لازم و ضروری است که:
بتوانیم با مراجعه به متن چاپی متوجه شویم کلمات مشکوک به ایراد تایپی در گنجور آیا واقعاً ایراد تایپی هستند یا با توجه به مرجع چاپی درستند.
از جانب دیگر برای پژوهشگران امکان این را فراهم میآوریم که بتوانند در آثارشان به صفحات کاغذی کتابها ارجاع بدهند.
در کل هم، وجود تصویر مرجع چاپی میتواند شائبههای دستکاری متن در گنجور را کاهش دهد و اعتمادپذیری آن را بالا ببرد.
خوشبختانه این که متن کتابهای نسکبان OCR شده و با توجه به دقت نه چندان بالا اما معقول این فرایند به طور حدودی میتوانیم از متن معادل آنها در گنجور مطلع شویم راهکاری را برای فهرستگذاری خودکار متن گنجور بر اساس کتابهای نسکبان در اختیار ما میگذارد.
بر این اساس، با تعیین این که مرجع احتمالی متن هر بخش گنجور کدام کتاب نسکبان است میتوانیم با مقایسهٔ الگوریتمی متن گنجور با متن صفحات کتاب جای آن را در کتاب پیدا کنیم و آنها را با هم لینک کنیم.
الگوریتمی که برای انجام این کار طراحی شده به این صورت است که برای هر شعر از آغاز کتاب تا پایان آن صفحه به صفحه به اندازهای معادل متن شعر یا بخش متن منثور در گنجور متن برمیداریم (به طور معمول برای اشعار کوتاه یک صفحه و برای اشعار طولانی مثل قصاید چند صفحه انتخاب میشود). سپس آمار میگیریم که چند کلمه از متن گنجور در متن نسکبان صفحات انتخاب شده یافت میشوند و نسبتِ تعداد کلمات موجود به کل کلمات را پیدا میکنیم. آستانهای برای تعیین این که متن گنجور و نسکبان صفحات انتخاب شده مطابقت دارند در نظر میگیریم. مثلاً فرض میکنیم اگر ۷۰ درصد کلمات متن گنجور یافت شد این صفحات با هم مطابقت دارند. سپس مقایسه را تا پایان متن کتاب ادامه میدهیم تا اگر صفحهای در کتاب نسکبان با درصد مطابقت بالاتر پیدا شد آن را به عنوان صفحهٔ معادل انتخاب کنیم. به این ترتیب در نهایت در صورت پیدا کردن صفحاتی با مطابقت بالاتر از آستانهٔ تعیین شده، صفحهٔ دارای بالاترین مطابقت را به عنوان صفحهٔ معادل متن گنجور انتخاب میکنیم. در نهایت با توجه به تأثیر صفحات خالی یا صفحات عنوان که میتواند باعث شود صفحهای که در واقع با شعر گنجور مطابق است صفحه یا یکی از صفحات بعدی باشد و همینطور این که تکبیتها و رباعیها و اشعار کوتاه به لحاظ تعداد کلمات کمشان ممکن است با صفحات نامرتبط حاوی تمام کلماتشان تطبیق کنند فرایندهای الگوریتمی سادهای برای حذف موارد نامرتبط نیز آماده کردهایم تا تعداد موارد نامرتبط را کم کند.
در انتخاب این روش آزمایش و خطاهایی انجام شده، مثلاً ابتدا مقایسهٔ ترتیبی اشعار بخش و صفحات کتاب را امتحان کردیم که اگر چه برای بعضی از کتابها با سرعت خیلی بیشتری به نتیجه میرسید، برای بخشهایی از گنجور که کتاب مرجع ترتیب الفبایی نداشته و ما در گنجور اشعار را به ترتیب حروف قافیه مرتب کردهایم کارایی ندارد. پیدا کردن اولین صفحه از کتاب با مطابقت بالاتر از آستانه و عدم بررسی صفحات بعدی نیز به خصوص برای اشعار کوتاه مانند رباعیها که احتمال آن وجود دارد که بسیاری از کلماتشان در صفحات نامربوط کتاب پیدا شوند ایجاد مشکل میکند.
الگوریتم طراحی شده به دلیل بررسی کل متن کتاب بسیار زمانبر است اما در بررسی تصادفی به عمل آمده دقت قابل قبولی دارد و میتوان با اختصاص منابع پردازشی به آن این نقیصه یعنی زمانبر بودنش را جبران کرد.
خودکارسازی این فرایند با حذف نیاز به نیروی انسانی میتواند در آینده امکان این را هم اضافه کند که علاوه بر چاپهای مرجع گنجور، متن شعر را در چاپها و تصحیحهای دیگر نیز پیدا کنیم و آنها را با شعر لینک کنیم و در آینده بتوانیم متن شعر را در نسخههای بدل چاپی دیگر نیز در دسترس داشته باشیم و بررسی کنیم.
متأسفانه با توجه به این که سرور نسکبان در ایران قرار دارد و طی روزهای اخیر اختلالات همیشگی اینترنت ایران شدیدتر شده این که این فرایند چه زمانی تکمیل شود چندان در کنترل ما نیست (لازمهٔ پیشرفت این فرایند ارتباط پایدار سرور گنجور که در خارج از ایران قرار دارد با این سرور در داخل ایران است). تا کنون کتابهای مرتبط با اشعار تا حدود قرن هفتم مشخص شده و در صف پردازش قرار گرفتهاند که پیش از شدت گرفتن این اختلالات با سرعت مناسبی در حال پردازش و تکمیل بودهاند.
بعد از پایان فرایند تطبیق متن کتابهای چاپی با متن گنجور مرحلهٔ دیگری را آغاز خواهیم کرد که بین چند نسخهٔ چاپی مرتبط با یک بخش در گنجور بخشی را که با احتمال بالا منبع کاغذی گنجور بوده با الگوریتمهایی مشابه همان الگوریتمهای آماری که شرحشان آمد پیدا کنیم. تا آن زمان، اولین نسخهٔ چاپی پردازش شده به عنوان مرجع معرفی شده (تا دسترسی به آن از طریق ویرایشگر متن گنجور آسان باشد) اما در عمومِ موارد، لزوماً این موارد مرجع کاغذی گنجور نبودهاند.