از آنجا که بیشترین بسامد از آن حروف ربط و واژگان کمتأثیر است برای کاهش نویز و واضحتر شدن اطلاعات معنیدار امکان حذف واژگان «کمهوادار» از آمار صد واژهٔ ابتدایی کلی یا همهٔ بخشها اضافه شده است. این واژگان را از میان دویست واژهٔ پربسامد کلی انتخاب کردهایم.
در شاهنامه چند بار از ایران نام برده شده؟ پرکاربردترین کلمه غیر از حروف ربط و افعال پرکاربرد در رباعیات خیام کدام کلمه است؟ در غزلیات سعدی بیشتر از واژهٔ «دلبر» استفاده شده است یا از واژهٔ «معشوق»؟ به نسبت حجم کل، درصد کاربرد کلمهٔ «عشق» در غزلیات شمس بیشتر است یا در غزلیات حافظ؟
«بسامد واژگان» در فهرستهای بخشهای گنجور برای پاسخگویی به این دسته سؤالات ایجاد شده است. البته کلمات بر اساس شکل آنها شمارش شدهاند و از این جهت «می» استمرار در کلمهٔ «میرود» با «می» به معنی شراب یک کلمه در نظر گرفته شدهاند. کلمات شمارش شده نیز لزوماً یک کلمه نیستند و بر حسب این که با چه رسمالخطی در گنجور نوشته شده باشند ممکن است قسمتی از یک کلمهٔ کامل (مثالش همان «می» در «میرود») یا ترکیب چند کلمه باشد مثل «دیگرست» که چون فاصلهای بین «دیگر» و «است» وجود نداشته یک کلمه محسوب شده. در جداسازی کلمات نیز فعلاً ترجیح دادهایم نیمفاصله را نیز مانند فاصله به عنوان جداساز کلمات در نظر بگیریم.
با وجود ایرادات یاد شده میتوان با استفاده از این ابزار، تقریبی از پاسخهای احتمالی برای پرسشهای طرح شدهٔ ابتدایی را به دست آورد.
شمارش کلمات فرایندی زمانبر است و تا پوشش همهٔ گنجور چند روزی طول خواهد کشید. در بخشهایی که کار شمارش کلماتشان تمام شده قسمتی به نام «بسامد واژگان» ظاهر میشود که به طور پیشفرض ۱۰۰ واژهٔ پربسامد آن بخش را به ترتیب نزولی بسامد نمایش میدهد. با تایپ کلمهٔ مورد نظر خود در کادر «جستجوی واژه» میتوانید بسامد، ردیف آن در فهرست این واژهها، تعداد و درصد تعداد آن به نسبت تعداد کل واژهها را مشاهده کنید. عدد «ردیف» واژهها لزوماً نمایانگر ترتیب از لحاظ بسامد نیست و تنها نمایانگر آن است که اگر فهرست صدواژهٔ ابتدایی تا واژهٔ جستجو شده ادامه پیدا میکرد در شماره ردیف آن چه عددی نوشته میشد.
با کلیک یا لمس لینک متناظر هر واژه میتوانید آن را در بخش جاری جستجو کنید.
بخش عمدهٔ محتوای گنجور از نرمافزارها و وبگاههای دیگر وارد شده است و در این زمینه علاقمندان ادبیات مدیون بزرگوارانی هستند که پیش و بیش از گنجور روی دیجیتالی کردن میراث ادب ایرانزمین سرمایهگذاری کردهاند.
منبع اولیه دیجیتال هر شعر در کادر اطلاعات داخل آن مشخص شده است.
البته در طول زمان و به همت کاربران و همراهان گنجور متون وارد شده تکمیل یا تصحیح شده و تغییر کردهاند و لزوماً دیگر با منبع اولیه همخوانی ندارند. پیشتر در صفحهٔ منابع گنجور فهرستی ثابت از این منابع را نگهداری میکردیم که با فواصل طولانی تکمیل میشد.
برچسبهای منابع دیجیتال گنجور را تکمیل کردیم و هماکنون همهٔ شعرها دارای برچسب منبع اولیه هستند. منابع را به سه دسته (۱. نرمافزارها و وبگاههای دیگر، ۲.همراهان گنجور و ۳.پروژهٔ بازبینی OCR) تقسیم کردیم و علاوه بر یک آمار دستهبندی شده بر این اساس، آمار ریز ورودی از منابع را شامل نام عزیزانی که به شکل فردی یا تیمی مجموعههای حجیمی را برای گنجور تایپ کرده بودند در دسترس گذاشتیم.
آمار کنونی فقط پوششدهندهٔ بخش منظوم گنجور است. امیدواریم در آینده آماری معادل را که پوششدهندهٔ بخش منثور و در نهایت همهٔ متون در دسترس از طریق گنجور باشد اضافه کنیم.
اپ چکامه حاصل تلاش آقای میلاد اجیلیان برای دسترسی کاربران دستگاههای مبتنی بر آی.او.اس به گنجینهٔ ادبیات فارسی است و تفاوت آن با عموم نمونههای دیگر آن است که به طور مستقیم به وبسرویس گنجور متصل است. از این جهت انتظار میرود آخرین تغییرات و تصحیحات و اضافات گنجور در آن منعکس شده باشد. البته چکامه بعد از اولین دریافت یک نسخهٔ آفلاین از اطلاعات دریافتی نگه میدارد تا نیاز به اتصال دائمی به اینترنت نداشته باشد.
این فرایند هماکنون به پایان رسیده است. در پایان این فرایند هماکنون اشعار گنجور بر اساس ۳۹۵ کتاب PDF در دسترس از طریق نسکبان فهرستگذاری شدهاند.
منابع کاغذی آثار هر سخنور (شامل منابع در دسترس از طریق نسکبان و گنجینهٔ گنجور) نیز ذیل صفحهٔ خود آن سخنور فهرست شده است:
سرور نسکبان ارتقا و بهبود پیدا کرده و امیدوارم به زودی بتوانم روی بهبود کارایی جستجو در آن وقت بگذارم. فرایند تطبیق متن کتابهای نسکبان با گنجور هنوز ایدهآل نیست و جای کار دارد. منتهی وضعیت فعلی هم به لحاظ مستند کردن بخش قابل توجهی از متون گنجور گام بزرگ و مهمی محسوب میشود.
در صفحات معرفی شاعران، بخش نقل قولهای احتمالی آنان از دیگران و دیگران از آنان برای شاعرانی که با تعداد زیادی از شاعران دیگر ارتباط داشتند باعث شلوغی صفحاتشان شده بود. لینک به این صفحات را از حالت قبلی خارج کردم و آنها را در یک کادر (به طور پیشفرض بسته شده) به اسم «مشق شعر» تجمیع کردم. لینکها نیز با تصاویر شاعران جایگزین شدهاند.
بخش «آمار» نیز به طور پیشفرض بسته شده است تا کسانی که نیاز به مشاهدهٔ اطلاعات آن دارند آن را باز کنند و از شلوغی صفحه کاسته شود.
به جای لینک ساده به صفحات پیشنهاد تصاویر شاعران نیز اولین تصویر پیشنهاد شده در صورت وجود نمایش داده میشود. این تصویر برای مواردی که تصویر چهرهٔ گنجور از طراحی مشخصی برداشته شده باشد همان تصویر مرجع است.
مجمل (اگر حوصله ندارید پاراگرافهای بعد را بخوانید): در روزهای اخیر پای خیلی از اشعار گنجور میتوانید تصاویر مراجع چاپی آنها را مشاهده کنید. اگر لزوماً تصویر معرفی شده به عنوان «منبع کاغذی گنجور» با متن شعر همخوانی ندارد نگران نباشید این یک فرایند خودکار در حال تکمیل است که امید است در صورت فراهم شدن پایداری حداقلی در ارتباط اینترنتی داخل ایران زودتر به ثمر برسد و نتایج دقیقتر شود.
حدیث مفصّل: یکی از مهمترین اهداف پشت ایجاد نسکبان لینک کردن متون گنجور با منابع کاغذی آن بوده است. فرایندی که با توجه به حجم و تنوع بالای متون گنجور انجام آن به شکل دستی محتاج سالها کار نیروی انسانی است. این کار از این جهت لازم و ضروری است که:
بتوانیم با مراجعه به متن چاپی متوجه شویم کلمات مشکوک به ایراد تایپی در گنجور آیا واقعاً ایراد تایپی هستند یا با توجه به مرجع چاپی درستند.
از جانب دیگر برای پژوهشگران امکان این را فراهم میآوریم که بتوانند در آثارشان به صفحات کاغذی کتابها ارجاع بدهند.
در کل هم، وجود تصویر مرجع چاپی میتواند شائبههای دستکاری متن در گنجور را کاهش دهد و اعتمادپذیری آن را بالا ببرد.
خوشبختانه این که متن کتابهای نسکبان OCR شده و با توجه به دقت نه چندان بالا اما معقول این فرایند به طور حدودی میتوانیم از متن معادل آنها در گنجور مطلع شویم راهکاری را برای فهرستگذاری خودکار متن گنجور بر اساس کتابهای نسکبان در اختیار ما میگذارد.
بر این اساس، با تعیین این که مرجع احتمالی متن هر بخش گنجور کدام کتاب نسکبان است میتوانیم با مقایسهٔ الگوریتمی متن گنجور با متن صفحات کتاب جای آن را در کتاب پیدا کنیم و آنها را با هم لینک کنیم.
الگوریتمی که برای انجام این کار طراحی شده به این صورت است که برای هر شعر از آغاز کتاب تا پایان آن صفحه به صفحه به اندازهای معادل متن شعر یا بخش متن منثور در گنجور متن برمیداریم (به طور معمول برای اشعار کوتاه یک صفحه و برای اشعار طولانی مثل قصاید چند صفحه انتخاب میشود). سپس آمار میگیریم که چند کلمه از متن گنجور در متن نسکبان صفحات انتخاب شده یافت میشوند و نسبتِ تعداد کلمات موجود به کل کلمات را پیدا میکنیم. آستانهای برای تعیین این که متن گنجور و نسکبان صفحات انتخاب شده مطابقت دارند در نظر میگیریم. مثلاً فرض میکنیم اگر ۷۰ درصد کلمات متن گنجور یافت شد این صفحات با هم مطابقت دارند. سپس مقایسه را تا پایان متن کتاب ادامه میدهیم تا اگر صفحهای در کتاب نسکبان با درصد مطابقت بالاتر پیدا شد آن را به عنوان صفحهٔ معادل انتخاب کنیم. به این ترتیب در نهایت در صورت پیدا کردن صفحاتی با مطابقت بالاتر از آستانهٔ تعیین شده، صفحهٔ دارای بالاترین مطابقت را به عنوان صفحهٔ معادل متن گنجور انتخاب میکنیم. در نهایت با توجه به تأثیر صفحات خالی یا صفحات عنوان که میتواند باعث شود صفحهای که در واقع با شعر گنجور مطابق است صفحه یا یکی از صفحات بعدی باشد و همینطور این که تکبیتها و رباعیها و اشعار کوتاه به لحاظ تعداد کلمات کمشان ممکن است با صفحات نامرتبط حاوی تمام کلماتشان تطبیق کنند فرایندهای الگوریتمی سادهای برای حذف موارد نامرتبط نیز آماده کردهایم تا تعداد موارد نامرتبط را کم کند.
در انتخاب این روش آزمایش و خطاهایی انجام شده، مثلاً ابتدا مقایسهٔ ترتیبی اشعار بخش و صفحات کتاب را امتحان کردیم که اگر چه برای بعضی از کتابها با سرعت خیلی بیشتری به نتیجه میرسید، برای بخشهایی از گنجور که کتاب مرجع ترتیب الفبایی نداشته و ما در گنجور اشعار را به ترتیب حروف قافیه مرتب کردهایم کارایی ندارد. پیدا کردن اولین صفحه از کتاب با مطابقت بالاتر از آستانه و عدم بررسی صفحات بعدی نیز به خصوص برای اشعار کوتاه مانند رباعیها که احتمال آن وجود دارد که بسیاری از کلماتشان در صفحات نامربوط کتاب پیدا شوند ایجاد مشکل میکند.
الگوریتم طراحی شده به دلیل بررسی کل متن کتاب بسیار زمانبر است اما در بررسی تصادفی به عمل آمده دقت قابل قبولی دارد و میتوان با اختصاص منابع پردازشی به آن این نقیصه یعنی زمانبر بودنش را جبران کرد.
خودکارسازی این فرایند با حذف نیاز به نیروی انسانی میتواند در آینده امکان این را هم اضافه کند که علاوه بر چاپهای مرجع گنجور، متن شعر را در چاپها و تصحیحهای دیگر نیز پیدا کنیم و آنها را با شعر لینک کنیم و در آینده بتوانیم متن شعر را در نسخههای بدل چاپی دیگر نیز در دسترس داشته باشیم و بررسی کنیم.
متأسفانه با توجه به این که سرور نسکبان در ایران قرار دارد و طی روزهای اخیر اختلالات همیشگی اینترنت ایران شدیدتر شده این که این فرایند چه زمانی تکمیل شود چندان در کنترل ما نیست (لازمهٔ پیشرفت این فرایند ارتباط پایدار سرور گنجور که در خارج از ایران قرار دارد با این سرور در داخل ایران است). تا کنون کتابهای مرتبط با اشعار تا حدود قرن هفتم مشخص شده و در صف پردازش قرار گرفتهاند که پیش از شدت گرفتن این اختلالات با سرعت مناسبی در حال پردازش و تکمیل بودهاند.
بعد از پایان فرایند تطبیق متن کتابهای چاپی با متن گنجور مرحلهٔ دیگری را آغاز خواهیم کرد که بین چند نسخهٔ چاپی مرتبط با یک بخش در گنجور بخشی را که با احتمال بالا منبع کاغذی گنجور بوده با الگوریتمهایی مشابه همان الگوریتمهای آماری که شرحشان آمد پیدا کنیم. تا آن زمان، اولین نسخهٔ چاپی پردازش شده به عنوان مرجع معرفی شده (تا دسترسی به آن از طریق ویرایشگر متن گنجور آسان باشد) اما در عمومِ موارد، لزوماً این موارد مرجع کاغذی گنجور نبودهاند.
آقای دکتر احمدرضا بهرامپور عمران در کانال تلگرام خودشان تا به حال چند باری دربارهٔ «شعر مشارکتی» -شعری که چند شاعر در سرودن آن کمک میکنند- صحبت کردهاند.
در اغلبِ رشتههای هنری میتوان نمونههایی از آثار را برشمرد که با همکاری دو یا چند تن آفریده شده. گمان میکنم مشهورترین نمونههای این همکاری را باید در عالمِ موسیقی و آثارِ دوصدایی یا چندصدایی جُست. در شعرِ فارسی اما کهنترین نمونه شاید همان ماجرای احتمالاً افسانهای چگونگیِ راهیافتنِ فردوسی به دربارِ محمود، با سرودنِ مصراعِ «مانند سنانِ گیو در جنگِ پشن» در تکمیلِ یک رباعی باشد. [این افسانه را در تذکرة الشعرای دولتشاه سمرقندی نیز میتوانید در این صفحه بخوانید] در تاریخِ ادبیاتِ فارسی منظومههایی ناتماممانده (ازجمله منظومهای از وحشیِ بافقی) نیز سراغداریم که شاعر یا شاعرانی دیگر آن را به سرانجامرساندهاند. و این نمونهها جدا از حک و اصلاح و چکشکاریهای اساسیِ آثارِ شاعران از سوی دیگر شاعران یا منتقدان است. در شعرِ جهان اعمالِ ویرایشِ سختگیرانهٔ ازرا پاوند بر «سرزمینِ بیحاصلِ» الیوت مشهور است؛ در شعرِ امروزِ فارسی نیز قطعهای از شاملو که سطرهایی از آن را نیما (در مقامِ استاد) ویرایشکرده و سطرهایی از آن را سروده است. ضمناً حسابِ اشعارِ مشارکتی یا دوشاعره و گاه چندشاعره، جدا از دفترهایی است که گاه ممکن است دو یا چند شاعر با قطعاتِ شخصی در دفتری واحد منتشرکنند؛ برجستهترین نمونهٔ آن هم «ترانهها/بالادهای غنایی» سرودهٔ کولریج و وردزورث است. گرچه اغلبِ قطعاتِ این مجموعه از آنِ وردزورث است اما قطعهٔ مشهورِ «دریانوردِ کهنسالِ» کولریج نیز در همین دفترِ مشترک آمده است. خواهران برونته (امیلی، شارلوت و آن) نیز مجموعهشعری را مشترکاً و با نام مستعار منتشرکردند؛ اثری که تنها دو نسخه از آن به فروش رسید. بیست ویک قطعه از این مجموعه سرودهٔ امیلی برونته بود (زن و ادبیات، گزینش و ترجمهٔ منیژه نجم عراقی و همکاران، نشر چشمه، ۱۳۸۲، ص ۳۹۴). در ایران نیز صدرالدین الهی و غ. تاجبخش مجموعهای مشترک با عنوانِ «خار» منتشرکردند. در عالمِ داستاننویسی نیز «شبهای مِدان»، مجموعهداستانی مشارکتی است نوشتهٔ امیل زولا و همفکرانش، در گروهِ «مِدان»*.
در شعرِ امروز مشهورترین قطعاتِ دوشاعره در دفترهای یدالله رویایی نمونه دارد. دلتنگیهای ۵ و ۶ را رویایی و فروغ با هم سرودند و رویایی در توضیح آورده: «چقدر بدبختم من که هنوز ماندهام تا در این جهان بنویسم که دلتنگیهای ۵ و ۶ را با فروغِ آنجهانی، با هم ساختهبودیم» (انتشاراتِ روزن، ۱۳۴۶، ص ۱۱۴). رویایی در یادداشتی دربارهٔ قطعهای در دفترِ «دریاییها» نیز یادآورشده: «سطرِ آخرِ صفحهٔ ۶۷ و سه سطرِ اولِ [صفحهٔ] ۶۸ از فروغ است» (انتشاراتِ روزن، ۱۳۴۷، ص ۷۸):
«دلتنگیِ ۶»
«شب در گریزِ اسبِ سیاه/ یک صف درخت/باقیمیمانَد/ در چهار کهکشانِ نعل/ یک صف درخت/ بیشیهه میگذشت/ رگِ بریده دهان باز کرد و ریخت/ افقِ دراز/ دراز/ درازِ لختهلخته، درازِ مذاب/ زنی در اصطکاکِ رانهایش/ گُر میگرفت/ ستارهای رسیده در تهِ خود چکهکرد/ صدایی از سرعت پرسید: کجا؟/ کجا؟/ اما جواب/ گذشتن بود/ و در گریزِ اسبِ سیاه/ سرعت پیادهمیرفت/ سرعت صفِ درخت بود که میماند» (دلتنگیها ۸_۲۶).
نمونهٔ برجستهٔ دیگر از این شاید که بتوانگفت «باهمسرایی» را در قطعهای نُهسطری از اسماعیلِ شاهرودی، هوشنگِ بادیهنشین و یدالله رویایی، میتوان دید. تفاوتِ این قطعه با نمونههای مشابه در آن است که اینجا نیز مانندِ نمونههای مشارکتیِ فروغ و رویایی (در «دلتنگیها») پیدا نیست کدامیک از شاعران کدامین سطر را سروده:
«توکلتُ علیالله»
مردِ ماهیگیر با نجوای بسمالله
قایقِ خود را بسانِ قایقِ خورشید
روی ناهموارِ موج آهستهمیرانَد
دستهایش میسراید آیتالکرسی به هر آمد-شدِ پارو
و نگاهش میدهدپرواز صدها مرغِ سبزِ بادها را در فضای قصرهای موج
آفتابِ گرم را با جلوهٔ هر یاد میخوانَد
آفتاب اما نمیداند که مردی هست و موجی از توکلتُ علیالله در سرش سرشارِ ماهیها
وینک آیا در درونِ تورِ ماهیگیر
حسرتِ صد ماهیِ چالاک میماند؟ (اسماعیلِ شاهرودی، مجموعه اشعار، انتشاراتِ نگاه، ۱۳۹۰، صص ۱-۳۴۰).
* عنوانِ گروه؛ و دراصل نامِ مِلکی از امیل زولا که ناتورالیستها در آن گردهممیآمدند.
استاد گرامی در دو نوشتهٔ دیگر نیز به همین مسئله اشاره کردهاند. یک جا شعری مشترک از رؤیایی و فروغ را که در نوشتهٔ پیشین دربارهٔ آن صحبت کرده بودند آوردهاند و جای دیگر همین اخیراً دربارهٔ شعر طنز دیگری سرودهٔ شاعران عضو محفل قمپز صحبت کردهاند.
غرض از نقل این مقدمه آن بود که به دوستان شاعر ابزاری را که برنامهنویسان برای برنامهنویسی مشارکتی از آن استفاده میکنند معرفی کنم. این ابزار سورس کنترل نام دارد و پرطرفدارترین نرمافزاری که امکانات چنین ابزاری را در دسترس میگذارد گیت (git) نام دارد که بدون نیاز به نصب نرمافزار از طریق سایت گیتهاب قابل استفاده است.
روش استفاده از آن به این صورت است که میتوانید با تعریف یک پروژه، یک فایل متنی در آن ایجاد کنید. سپس کاربران دیگر یک کپی از پروژهٔ شما بسازند (به اصطلاح آن را فورک کنند) و فایل متنی شما را ویرایش کنند. یا کلمات آن را تغییر دهند یا خطوطی از آن را حذف و خطوط جدیدی به آن اضافه کنند. تغییرات آنها روی پروژهٔ شما تأثیر نمیگذارد. اما آنها میتوانند درخواست کنند که تغییراتشان روی پروژهٔ شما اعمال شود (به اصطلاح پولریکوئست (pull request) بزنند). شما میتوانید درخواست تغییرات دریافتی را رد کنید یا آن را بپذیرید و روی فایل متنی اصلی اعمال کنید. به این ترتیب تاریخچهٔ تغییرات، این که چه کسی چه تغییری را داده و کدام خط سرودهٔ چه کسی است در تاریخچهٔ پروژه قابل مشاهده خواهد بود.
خلاصه و اصل مطلب (اگر حوصله ندارید پاراگرافهای بعد را بخوانید): در سایت نسکبان به نشانی naskban.ir امکان مرور و جستجو در متن بیش از سیهزار کتاب فارسی با قالب PDF دریافت شده از کتابخانهٔ اینترنتی سها را دارید. قابلیتهای افزودهٔ آن بر سها، امکان جستجو در متن کتابها، نشانیهای یکتا برای صفحات کتابها و امکان فهرستگذاری گنجور بر اساس کتابهای چاپ شدهٔ در دسترس از طریق آن است. برای دسترسی به و استفاده از آن باید در آن نامنویسی کنید.
پردهٔ اول: روزگاری دور (چهارده سال پیش) یکی از همراهان گنجور با من تماس گرفت و گفت شعری از پروین اعتصامی در کتابهای درسی دوران ابتداییشان بوده که اکنون در میان آثار پروین نیست. علیرغم آن که عموماً من از دست بردن در آثار و اضافه کردن جاماندههای اینچنینی پرهیز میکنم نمیدانم به چه دلیل -شاید برای راضی کردن دل خودم و آقای رضا سیمی- آن را به ته مثنویات پروین چسباندم. کمی بعد دوستانی آمدند و زیر آن نوشتند که از پروین نیست و یا از ایرج میرزاست یا از عباس یمینی شریف. از آن جهت دلچرکین شدم و علیالحساب با وجود آن که شعر هنوز ذیل آثار پروین هست در عنوانش گوشزد کردم که شاعر شعر ناشناخته است.
دوست داشتم منبع نقل این کتاب را پیدا کنم و ببینم از کیست. اما چطور؟ چطور میشود کتاب مرجع را پیدا کرد؟ این دغدغه با من بود تا آن که ابزارش را ساختم و در هنگام نوشتن این متن آن را یافتم: اینجا (برای مشاهدهٔ این صفحات میبایست در نسکبان که جلوتر معرفیش میکنم نامنویسی کنید)، کمی اینجا، کمی اینجا و کمی هم اینجا و اینجا. اما مسأله هنوز حل نشده. در کتاب چاپی نام شاعر ذکر نشده. منتهی یکی از دلایلی که امروز میتوانم در مخزن بزرگی از کتابهای چاپی چنین جستجویی انجام دهم دغدغهٔ گشودن رمز این معما بود. معمایی که با این حکمت گشوده نشد.
پردهٔ دوم: هدف اولیهٔ ساخت گنجینهٔ گنجور افزودن آب و رنگ به حال و هوای خشک و متنزدهٔ گنجور با استفاده از نسخههای نفیس خطی خصوصاً آنها که نقاشی داشتند بود. در ادامه و با توجه به آن که برای تصحیح خطاهای تایپی نیاز بود تصویر نسخههای کاغذی مرجع اشعار را ببینیم تصاویر کتابهای چاپی را نیز به آن افزودم.
گنجینهٔ گنجور از آغاز برای نگهداری تصاویر باکیفیت از نسخههای نفیس طراحی شده بود و برای در دسترسگذاری کتابهای چاپی، میبایست آنها را از PDF به تصویر تبدیل میکردم. فرایندی که با وجود کاهش کیفیت تصاویر به نسبت فایل PDF مورد استفاده باعث افزایش چندبرابری حجم آن میشود.
به خاطر این مشکل تصمیم گرفتم که سامانهای جدا برای نگهداری فایلهای PDF طراحی کنم که در آن نیاز نباشد قالب فایل اصلی تغییر کند در عین حال بتواند امکاناتی مشابه گنجینهٔ گنجور شامل نشانی یکتا برای هر صفحه از فایل را فراهم کند. همینطور امکان فهرستگذاری کتاب مطابق با متن گنجور نیز در آن وجود داشته باشد.
در جستجو برای منبعی متمرکز از فایلهای PDF قابل استفاده در ابتدا به کتابخانهٔ تخصصی ادبیات و از آنجا به سها رسیدم. مجموعهای عظیم از هزاران کتاب قابل دریافت در قالب PDF با ابردادههای توصیفکنندهٔ محتوای کتابها که البته من را در فیلتر و حذف کتابهای غیرفارسی آن به زحمت انداخت (عمدتاً فکر میکنم مشکل پیدا نشدهٔ کدهای خودم باشد) اما تلاشی که برای راهاندازی آن چه جمعآوری کتابهای پیشتر اسکن شده و چه اسکن کتابهای اسکن نشده شده شگفتانگیز و باورنکردنی است. به راستی که دستمریزاد!
از آنجا که حجم و جنس دادههای پروژهٔ جدید از گنجینهٔ گنجور متفاوت بود آن را از گنجور و گنجینهاش جدا کردم به این معنی که اطلاعات آن در پایگاه دادههایی مجزا و هماکنون روی سروری مجزا نگهداری میشود (سروری که برای پشتیبانگیری از گنجور تهیه شده). از این جهت کاربران نامنویسی شده در آن نیز با گنجور یکی نیستند و کاربران میبایست برای استفاده از امکانات اختصاصی در آن جداگانه نامنویسی کنند.
نام این سامانهٔ جدید نسکبان است (نام دامنهای که سالها پیش با هدف میزبانی گنجینهٔ گنجور ثبت شده بود و با تصمیم به ثبت آن به عنوان زیردامنهای از گنجور بلااستفاده مانده بود). سامانهای که به نوعی خود فهرستی بر سهاست (در آینده ممکن است منابع دیگری نیز به آن افزوده شود)، اما امکانات اضافهای ارائه میکند.
ویژگیها و امکانات مهم نسکبان در حال حاضر به شرح زیر است:
۱. هر کتاب و هر صفحه از هر کتاب در آن نشانی مجزایی دارد. از این جهت میتوانید به صفحات کتابها در آن لینک بدهید. نشانی کتابها یک عدد (شناسهٔ آنها) و شناسهٔ صفحات کتابها شمارهٔ صفحات آنها بعد از خط کج (/) جدا شده از شناسهٔ کتاب متناظرشان است.
امکان کپی آسان لینک صفحات (کتابها، صفحات کتابها و جستجوها) نیز در نظر گرفته شده است.
۲. متن (تقریباً) تمام کتابها با استفاده از نرمافزار بازمتن تسرکت (tesseract) که از زبان فارسی نیز پشتیبانی می کند OCR شده است و میتوانید در متن آنها بگردید (قطعاً خروجی OCR پراشکال است اما برای یافتن شواهد به اندازهٔ کافی خوب است، ضمناً با توجه به سختافزار سرور فعلی نسکبان باید در جستجوی تماممتنی پرحوصله باشید).
جستجوی پیشفرض در ابردادههای کتابها (عناوین و نام پدیدآورندگان و …) انجام میشود و برای جستجو در متن کتابها باید از دکمهٔ دیگری استفاده کنید:
میتوانید عبارتی را در متن تمام کتابها بگردید (اگر میخواهید عبارتی ترکیبی را به طور دقیق جستجو کنید آن را بین دو علامت “ قرار دهید). در صفحهٔ نتایج فهرست تمام کتابهایی را خواهید دید که این متن در آنها یافت شده است.
با انتخاب هر کتاب از نتایج نمایش داده شده، عبارت جستجو شده دوباره در متن آن کتاب جستجو میشود و تصاویر صفحات حاوی آن به همراه متن حاوی عبارت به صورت برجستهشده نمایش داده میشوند.
با انتخاب هر صفحه میتوانید تصویر آن صفحه را ببینید. امکان آن که از ابتدا عبارتی را در یک کتاب خاص بگردید نیز وجود دارد. آن را باز کنید. امکان جستجو در متن آن (اگر OCR شده باشد) از کادر بالای آن وجود دارد.
۳. کاربران میتوانند کتابها و صفحات آنها را نشان کنند و به فهرست نشانشدههایشان دسترسی دارند.
۴. از کارکردهای ثانویه که بگذریم 😉 امکان فهرستگذاری صفحات کتابهای نسکبان با متن گنجور فراهم شده است. لذا میتوان امیدوار بود که در آینده منابع چاپی همهٔ متون گنجور را با استفاده از آن فهرستگذاری کنیم. روش کار مشابه همان کاری است که در گنجینهٔ گنجور انجام شده. پس از نامنویسی و ورود به نسکبان، کتاب مد نظر را پیدا میکنیم. وارد آن میشویم و زیر صفحهای که با شعری از گنجور مرتبط است از دکمهٔ «پیشنهاد شعر مرتبط با گنجور» به صفحهای مانند شکل بعد میرسیم که میتوانیم در دو سمت صفحه نسکبان و گنجور را ببینیم و بین صفحات آنها مستقلاً حرکت کنیم.
۵. نسکبان هماکنون روی سروری که برای پشتیبانگیری از دادههای سرور اصلی گنجور تهیه شده میزبانی میشود. این سرور در ایران قرار دارد و احتمالاً با فیلترشکنها و شاید با کاربران خارج از ایران مشکلاتی داشته باشد. از آنجا که مهمترین شاخص تهیهٔ این سرور فضای دیسک بوده مشخصات سختافزاری خوبی هم ندارد. به این دلایل انتظار ندارم که این سرور در برابر ترافیک بالای ورودی پاسخگویی مناسبی داشته باشد. خصوصاً که جستجوی متنی داخل همهٔ کتابها نیز پردازهٔ سنگینی است. در آینده پروژههای امیدوارکنندهای مانند ایران سرچ و همینطوراحتمالاً خود سها و کتابخانهٔ ادبیات -اگر قابلیت جستجوی متنی داخل کتابها را اضافه کنند- میتوانند جایگزینهای پایدارتری برای نسکبان باشند و کارکرد نسکبان بیشتر به یکپارچگی آن با گنجور محدود شود. بسته به استقبال و میزان پایداری شاید در آینده سرور بهتری برای نسکبان تهیه کردم تا پاسخگویی بالاتری داشته باشد. در حال حاضر و با توجه به شلختگی کلی در طراحی و کمبود امکانات نرمافزاری نسکبان و همینطور سرور و سختافزار زغالی با توجه به کارکردهای -در حال حاضر- به نظر بینظیرش، نسکبان رتبهٔ بالاتری به نسبت گنجور در کسب عنوان «لنگه کفش کهنه در بیابان» کسب میکند 😉 !
نسکبان جای زیادی برای کار و بهبود دارد. برای آن که کنترل بهتری روی آن داشته باشم استفاده از آن را منوط به نامنویسی و ورود کاربران کردهام. به این ترتیب از ایندکس شدن میلیونها صفحهٔ آن روی گوگل جلوگیری میکنم، آمار دقیقی از میزان استفاده از آن دارم، احتمالاً حجم استفاده از آن به دلیل آن که بسیاری از سد نامنویسی و ایجاد حساب کاربری عبور نمیکنند پایین و کارایی آن با وجود سختافزار ضعیف معقول باقی میماند و اگر بعدها خواستم آن را واگذار کنم مالک و نگهدارندهٔ بعدی دست بازتری روی انتخاب آن که آن را چطور میخواهد در اختیار کاربر نهایی قرار دهد خواهد داشت.