پایان سرشماری بسامد واژه‌های گنجور

کار سرشماری بسامد واژگان گنجور پایان یافته و دستاورد پایانی در پایین این برگه در دسترس است:

بسامد واژگان در آمار شعرهای گنجور

از آنجا که بیشترین بسامد از آن حروف ربط و واژگان کم‌تأثیر است برای کاهش نویز و واضح‌تر شدن اطلاعات معنی‌دار امکان حذف واژگان «کم‌هوادار» از آمار صد واژهٔ ابتدایی کلی یا همهٔ بخش‌ها اضافه شده است. این واژگان را از میان دویست واژهٔ پربسامد کلی انتخاب کرده‌ایم.

بسامد واژگان در گنجور

در شاهنامه چند بار از ایران نام برده شده؟ پرکاربردترین کلمه غیر از حروف ربط و افعال پرکاربرد در رباعیات خیام کدام کلمه است؟ در غزلیات سعدی بیشتر از واژهٔ «دلبر» استفاده شده است یا از واژهٔ «معشوق»؟ به نسبت حجم کل، درصد کاربرد کلمهٔ «عشق» در غزلیات شمس بیشتر است یا در غزلیات حافظ؟

«بسامد واژگان» در فهرست‌های بخش‌های گنجور برای پاسخگویی به این دسته سؤالات ایجاد شده است. البته کلمات بر اساس شکل آنها شمارش شده‌اند و از این جهت «می» استمرار در کلمهٔ «می‌رود» با «می» به معنی شراب یک کلمه در نظر گرفته شده‌اند. کلمات شمارش شده نیز لزوماً یک کلمه نیستند و بر حسب این که با چه رسم‌الخطی در گنجور نوشته شده باشند ممکن است قسمتی از یک کلمهٔ کامل (مثالش همان «می» در «می‌رود») یا ترکیب چند کلمه باشد مثل «دیگرست» که چون فاصله‌ای بین «دیگر» و «است» وجود نداشته یک کلمه محسوب شده. در جداسازی کلمات نیز فعلاً ترجیح داده‌ایم نیم‌فاصله را نیز مانند فاصله به عنوان جداساز کلمات در نظر بگیریم.

با وجود ایرادات یاد شده می‌توان با استفاده از این ابزار، تقریبی از پاسخ‌های احتمالی برای پرسش‌های طرح شدهٔ ابتدایی را به دست آورد.

لغزش به بخش بسامد واژگان
ایران در شاهنامه
بسامد واژگان حافظ

شمارش کلمات فرایندی زمان‌بر است و تا پوشش همهٔ گنجور چند روزی طول خواهد کشید. در بخش‌هایی که کار شمارش کلماتشان تمام شده قسمتی به نام «بسامد واژگان» ظاهر می‌شود که به طور پیش‌فرض ۱۰۰ واژهٔ پربسامد آن بخش را به ترتیب نزولی بسامد نمایش می‌دهد. با تایپ کلمهٔ مورد نظر خود در کادر «جستجوی واژه» می‌توانید بسامد، ردیف آن در فهرست این واژه‌ها، تعداد و درصد تعداد آن به نسبت تعداد کل واژه‌ها را مشاهده کنید. عدد «ردیف» واژه‌ها لزوماً نمایانگر ترتیب از لحاظ بسامد نیست و تنها نمایانگر آن است که اگر فهرست صدواژهٔ ابتدایی تا واژهٔ جستجو شده ادامه پیدا می‌کرد در شماره ردیف آن چه عددی نوشته می‌شد.

با کلیک یا لمس لینک متناظر هر واژه می‌توانید آن را در بخش جاری جستجو کنید.

آمار منابع دیجیتال گنجور

بخش عمدهٔ محتوای گنجور از نرم‌افزارها و وبگاه‌های دیگر وارد شده است و در این زمینه علاقمندان ادبیات مدیون بزرگوارانی هستند که پیش و بیش از گنجور روی دیجیتالی کردن میراث ادب ایران‌زمین سرمایه‌گذاری کرده‌اند.

منبع اولیه دیجیتال هر شعر در کادر اطلاعات داخل آن مشخص شده است.

منبع اولیه

البته در طول زمان و به همت کاربران و همراهان گنجور متون وارد شده تکمیل یا تصحیح شده و تغییر کرده‌اند و لزوماً دیگر با منبع اولیه همخوانی ندارند. پیشتر در صفحهٔ منابع گنجور فهرستی ثابت از این منابع را نگهداری می‌کردیم که با فواصل طولانی تکمیل می‌شد.

برچسب‌های منابع دیجیتال گنجور را تکمیل کردیم و هم‌اکنون همهٔ شعرها دارای برچسب منبع اولیه هستند. منابع را به سه دسته (۱. نرم‌افزارها و وبگاه‌های دیگر، ۲.همراهان گنجور و ۳.پروژهٔ بازبینی OCR) تقسیم کردیم و علاوه بر یک آمار دسته‌بندی شده بر این اساس، آمار ریز ورودی از منابع را شامل نام عزیزانی که به شکل فردی یا تیمی مجموعه‌های حجیمی را برای گنجور تایپ کرده بودند در دسترس گذاشتیم.

صفحهٔ منابع

آمار کنونی فقط پوشش‌دهندهٔ بخش منظوم گنجور است. امیدواریم در آینده آماری معادل را که پوشش‌دهندهٔ بخش منثور و در نهایت همهٔ متون در دسترس از طریق گنجور باشد اضافه کنیم.

چکامه: گنجینهٔ ادبیات فارسی روی آیفون و آیپد

اپ چکامه حاصل تلاش آقای میلاد اجیلیان برای دسترسی کاربران دستگاه‌های مبتنی بر آی.او.اس به گنجینهٔ ادبیات فارسی است و تفاوت آن با عموم نمونه‌های دیگر آن است که به طور مستقیم به وب‌سرویس گنجور متصل است. از این جهت انتظار می‌رود آخرین تغییرات و تصحیحات و اضافات گنجور در آن منعکس شده باشد. البته چکامه بعد از اولین دریافت یک نسخهٔ‌ آفلاین از اطلاعات دریافتی نگه می‌دارد تا نیاز به اتصال دائمی به اینترنت نداشته باشد.

اپ چکامه برای iPhone و iPad
اپ چکامه برای iPhone و iPad
اپ چکامه برای iPhone و iPad

چکامه متن‌باز است و کد آن روی گیتهاب در این نشانی در دسترس است.

علاقمندان ادبیات فارسی می‌توانند چکامه را از این نشانی در اپ‌استور دریافت کنند.

پایان کار فهرست‌گذاری خودکار متون گنجور بر اساس نسکبان

این فرایند هم‌اکنون به پایان رسیده است. در پایان این فرایند هم‌اکنون اشعار گنجور بر اساس ۳۹۵ کتاب PDF در دسترس از طریق نسکبان فهرست‌گذاری شده‌اند.

منابع کاغذی آثار هر سخنور (شامل منابع در دسترس از طریق نسکبان و گنجینهٔ گنجور) نیز ذیل صفحهٔ خود آن سخنور فهرست شده است:

منابع کاغذی حافقظ

سرور نسکبان ارتقا و بهبود پیدا کرده و امیدوارم به زودی بتوانم روی بهبود کارایی جستجو در آن وقت بگذارم. فرایند تطبیق متن کتابهای نسکبان با گنجور هنوز ایده‌آل نیست و جای کار دارد. منتهی وضعیت فعلی هم به لحاظ مستند کردن بخش قابل توجهی از متون گنجور گام بزرگ و مهمی محسوب می‌شود.

بهبود نمایش نقل قول‌های احتمالی و تغییرات دیگر در صفحات سخنوران

در صفحات معرفی شاعران، بخش نقل قول‌های احتمالی آنان از دیگران و دیگران از آنان برای شاعرانی که با تعداد زیادی از شاعران دیگر ارتباط داشتند باعث شلوغی صفحاتشان شده بود. لینک به این صفحات را از حالت قبلی خارج کردم و آنها را در یک کادر (به طور پیش‌فرض بسته شده) به اسم «مشق شعر» تجمیع کردم. لینک‌ها نیز با تصاویر شاعران جایگزین شده‌اند.

مشق شعر سعدی

بخش «آمار» نیز به طور پیش‌فرض بسته شده است تا کسانی که نیاز به مشاهدهٔ اطلاعات آن دارند آن را باز کنند و از شلوغی صفحه کاسته شود.

دکمهٔ آمار

به جای لینک ساده به صفحات پیشنهاد تصاویر شاعران نیز اولین تصویر پیشنهاد شده در صورت وجود نمایش داده می‌شود. این تصویر برای مواردی که تصویر چهرهٔ گنجور از طراحی مشخصی برداشته شده باشد همان تصویر مرجع است.

پیشنهاد تصویر چهره

فهرست‌گذاری خودکار متون گنجور بر اساس مراجع در دسترس از طریق نسکبان – در جریان …

مجمل (اگر حوصله ندارید پاراگراف‌های بعد را بخوانید): در روزهای اخیر پای خیلی از اشعار گنجور می‌توانید تصاویر مراجع چاپی آنها را مشاهده کنید. اگر لزوماً تصویر معرفی شده به عنوان «منبع کاغذی گنجور» با متن شعر همخوانی ندارد نگران نباشید این یک فرایند خودکار در حال تکمیل است که امید است در صورت فراهم شدن پایداری حداقلی در ارتباط اینترنتی داخل ایران زودتر به ثمر برسد و نتایج دقیق‌تر شود.

تصاویر منابع کاغذی گنجور در نسکبان

حدیث مفصّل: یکی از مهم‌ترین اهداف پشت ایجاد نسکبان لینک کردن متون گنجور با منابع کاغذی آن بوده است. فرایندی که با توجه به حجم و تنوع بالای متون گنجور انجام آن به شکل دستی محتاج سال‌ها کار نیروی انسانی است. این کار از این جهت لازم و ضروری است که:

  • بتوانیم با مراجعه به متن چاپی متوجه شویم کلمات مشکوک به ایراد تایپی در گنجور آیا واقعاً ایراد تایپی هستند یا با توجه به مرجع چاپی درستند.
  • از جانب دیگر برای پژوهشگران امکان این را فراهم می‌آوریم که بتوانند در آثارشان به صفحات کاغذی کتاب‌ها ارجاع بدهند.
  • در کل هم، وجود تصویر مرجع چاپی می‌تواند شائبه‌های دستکاری متن در گنجور را کاهش دهد و اعتمادپذیری آن را بالا ببرد.

خوشبختانه این که متن کتاب‌های نسکبان OCR شده و با توجه به دقت نه چندان بالا اما معقول این فرایند به طور حدودی می‌توانیم از متن معادل آنها در گنجور مطلع شویم راهکاری را برای فهرست‌گذاری خودکار متن گنجور بر اساس کتاب‌های نسکبان در اختیار ما می‌گذارد.

بر این اساس، با تعیین این که مرجع احتمالی متن هر بخش گنجور کدام کتاب نسکبان است می‌توانیم با مقایسهٔ الگوریتمی متن گنجور با متن صفحات کتاب جای آن را در کتاب پیدا کنیم و آنها را با هم لینک کنیم.

الگوریتمی که برای انجام این کار طراحی شده به این صورت است که برای هر شعر از آغاز کتاب تا پایان آن صفحه به صفحه به اندازه‌ای معادل متن شعر یا بخش متن منثور در گنجور متن برمی‌داریم (به طور معمول برای اشعار کوتاه یک صفحه و برای اشعار طولانی مثل قصاید چند صفحه انتخاب می‌شود). سپس آمار می‌گیریم که چند کلمه از متن گنجور در متن نسکبان صفحات انتخاب شده یافت می‌شوند و نسبتِ تعداد کلمات موجود به کل کلمات را پیدا می‌کنیم. آستانه‌ای برای تعیین این که متن گنجور و نسکبان صفحات انتخاب شده مطابقت دارند در نظر می‌گیریم. مثلاً فرض می‌کنیم اگر ۷۰ درصد کلمات متن گنجور یافت شد این صفحات با هم مطابقت دارند. سپس مقایسه را تا پایان متن کتاب ادامه می‌دهیم تا اگر صفحه‌ای در کتاب نسکبان با درصد مطابقت بالاتر پیدا شد آن را به عنوان صفحهٔ معادل انتخاب کنیم. به این ترتیب در نهایت در صورت پیدا کردن صفحاتی با مطابقت بالاتر از آستانهٔ تعیین شده، صفحهٔ دارای بالاترین مطابقت را به عنوان صفحهٔ معادل متن گنجور انتخاب می‌کنیم. در نهایت با توجه به تأثیر صفحات خالی یا صفحات عنوان که می‌تواند باعث شود صفحه‌ای که در واقع با شعر گنجور مطابق است صفحه یا یکی از صفحات بعدی باشد و همینطور این که تک‌بیت‌ها و رباعی‌ها و اشعار کوتاه به لحاظ تعداد کلمات کمشان ممکن است با صفحات نامرتبط حاوی تمام کلماتشان تطبیق کنند فرایندهای الگوریتمی ساده‌ای برای حذف موارد نامرتبط نیز آماده کرده‌ایم تا تعداد موارد نامرتبط را کم کند.

الگورریتم مشابه‌یابی

در انتخاب این روش آزمایش و خطاهایی انجام شده، مثلاً ابتدا مقایسهٔ ترتیبی اشعار بخش و صفحات کتاب را امتحان کردیم که اگر چه برای بعضی از کتابها با سرعت خیلی بیشتری به نتیجه می‌رسید، برای بخشهایی از گنجور که کتاب مرجع ترتیب الفبایی نداشته و ما در گنجور اشعار را به ترتیب حروف قافیه مرتب کرده‌ایم کارایی ندارد. پیدا کردن اولین صفحه از کتاب با مطابقت بالاتر از آستانه و عدم بررسی صفحات بعدی نیز به خصوص برای اشعار کوتاه مانند رباعی‌ها که احتمال آن وجود دارد که بسیاری از کلماتشان در صفحات نامربوط کتاب پیدا شوند ایجاد مشکل می‌کند.

الگوریتم طراحی شده به دلیل بررسی کل متن کتاب بسیار زمان‌بر است اما در بررسی تصادفی به عمل آمده دقت قابل قبولی دارد و می‌توان با اختصاص منابع پردازشی به آن این نقیصه یعنی زمان‌بر بودنش را جبران کرد.

خودکارسازی این فرایند با حذف نیاز به نیروی انسانی می‌تواند در آینده امکان این را هم اضافه کند که علاوه بر چاپ‌های مرجع گنجور، متن شعر را در چاپ‌ها و تصحیح‌های دیگر نیز پیدا کنیم و آنها را با شعر لینک کنیم و در آینده بتوانیم متن شعر را در نسخه‌های بدل چاپی دیگر نیز در دسترس داشته باشیم و بررسی کنیم.

متأسفانه با توجه به این که سرور نسکبان در ایران قرار دارد و طی روزهای اخیر اختلالات همیشگی اینترنت ایران شدیدتر شده این که این فرایند چه زمانی تکمیل شود چندان در کنترل ما نیست (لازمهٔ پیشرفت این فرایند ارتباط پایدار سرور گنجور که در خارج از ایران قرار دارد با این سرور در داخل ایران است). تا کنون کتابهای مرتبط با اشعار تا حدود قرن هفتم مشخص شده و در صف پردازش قرار گرفته‌اند که پیش از شدت گرفتن این اختلالات با سرعت مناسبی در حال پردازش و تکمیل بوده‌اند.

بعد از پایان فرایند تطبیق متن کتابهای چاپی با متن گنجور مرحلهٔ دیگری را آغاز خواهیم کرد که بین چند نسخهٔ چاپی مرتبط با یک بخش در گنجور بخشی را که با احتمال بالا منبع کاغذی گنجور بوده با الگوریتم‌هایی مشابه همان الگوریتم‌های آماری که شرحشان آمد پیدا کنیم. تا آن زمان، اولین نسخهٔ چاپی پردازش شده به عنوان مرجع معرفی شده (تا دسترسی به آن از طریق ویرایشگر متن گنجور آسان باشد) اما در عمومِ موارد، لزوماً این موارد مرجع کاغذی گنجور نبوده‌اند.

گیت (git) و کابردهای آن برای شعر سرودن به شیوهٔ مشارکتی

آقای دکتر احمدرضا بهرام‌پور عمران در کانال تلگرام خودشان تا به حال چند باری دربارهٔ «شعر مشارکتی» -شعری که چند شاعر در سرودن آن کمک می‌کنند- صحبت کرده‌اند.

از آن جمله:

شعرِ مشارکتی/ شعرِ چندشاعره

در اغلبِ رشته‌های هنری می‌توان نمونه‌هایی از آثار را برشمرد که با همکاری دو یا چند تن آفریده شده. گمان می‌کنم مشهورترین نمونه‌های این همکاری را باید در عالمِ موسیقی و آثارِ دوصدایی یا چندصدایی جُست. در شعرِ فارسی اما کهن‌ترین نمونه شاید همان ماجرای احتمالاً افسانه‌ای چگونگیِ راه‌یافتنِ فردوسی به دربارِ محمود، با سرودنِ مصراعِ «مانند سنانِ گیو در جنگِ پشن» در تکمیلِ یک رباعی باشد. [این افسانه را در تذکرة الشعرای دولتشاه سمرقندی نیز می‌توانید در این صفحه بخوانید] در تاریخِ ادبیاتِ فارسی منظومه‌هایی ناتمام‌مانده (ازجمله منظومه‌ای از وحشیِ بافقی) نیز سراغ‌داریم که شاعر یا شاعرانی دیگر آن را به سرانجام‌رسانده‌اند. و این نمونه‌ها جدا از حک و اصلاح و چکش‌کاری‌های اساسیِ آثارِ شاعران از سوی دیگر شاعران یا منتقدان است. در شعرِ جهان اعمالِ ویرایشِ سخت‌گیرانهٔ ازرا پاوند بر «سرزمینِ بی‌حاصلِ» الیوت مشهور است؛ در شعرِ امروزِ فارسی نیز قطعه‌ای از شاملو که سطرهایی از آن را نیما (در مقامِ استاد) ویرایش‌‌کرده‌ و سطرهایی از آن را سروده است. ضمناً حسابِ اشعارِ مشارکتی یا دوشاعره و گاه چندشاعره، جدا از دفترهایی است که گاه ممکن است دو یا چند شاعر با قطعاتِ شخصی در دفتری واحد منتشرکنند؛ برجسته‌ترین نمونهٔ آن هم «ترانه‌‌ها/بالادهای غنایی» سرودهٔ کولریج و وردزورث است. گرچه اغلبِ قطعاتِ این مجموعه از آنِ وردزورث است اما قطعهٔ مشهورِ «دریانوردِ کهنسالِ» کولریج نیز در همین دفترِ مشترک آمده است. خواهران برونته (امیلی، شارلوت و آن) نیز مجموعه‌شعری را مشترکاً و با نام مستعار منتشرکردند؛ اثری که تنها دو نسخه از آن به فروش رسید. بیست و‌یک قطعه از این مجموعه سرودهٔ امیلی برونته بود (زن و ادبیات، گزینش و ترجمهٔ منیژه نجم عراقی و همکاران، نشر چشمه، ۱۳۸۲، ص ۳۹۴).‌ در ایران نیز صدرالدین الهی و غ. تاج‌بخش مجموعه‌ای مشترک با عنوانِ «خار» منتشرکردند. در عالمِ داستان‌نویسی نیز «شب‌های مِدان»، مجموعه‌داستانی مشارکتی است نوشتهٔ امیل زولا و هم‌فکرانش، در گروهِ «مِدان»*.

در شعرِ امروز مشهورترین قطعاتِ دوشاعره در دفترهای یدالله رویایی نمونه دارد. دلتنگی‌های ۵ و ۶ را رویایی و فروغ با هم سرودند و رویایی در توضیح آورده: «چقدر بدبختم من که هنوز مانده‌ام تا در این جهان بنویسم که دلتنگی‌های ۵ و ۶ را با فروغِ آن‌جهانی، با هم ساخته‌بودیم» (انتشاراتِ روزن، ۱۳۴۶، ص ۱۱۴). رویایی در یادداشتی دربارهٔ قطعه‌ای در دفترِ «دریایی‌ها» نیز یادآورشده: «سطرِ آخرِ صفحهٔ ۶۷ و سه سطرِ اولِ [صفحهٔ] ۶۸ از فروغ است» (انتشاراتِ روزن، ۱۳۴۷، ص ۷۸):

«دلتنگیِ ۶»

«شب در گریزِ اسبِ سیاه/ یک صف درخت/باقی‌می‌مانَد/ در چهار کهکشانِ نعل/ یک صف درخت/ بی‌شیهه می‌گذشت/ رگِ بریده دهان باز کرد و ریخت/ افقِ دراز/ دراز/ درازِ لخته‌لخته، درازِ مذاب/ زنی در اصطکاکِ ران‌هایش/ گُر می‌گرفت/ ستاره‌ای رسیده در تهِ خود چکه‌کرد/ صدایی از سرعت پرسید: کجا؟/ کجا؟/ اما جواب/ گذشتن بود/ و در گریزِ اسبِ سیاه/ سرعت پیاده‌می‌رفت/ سرعت صفِ درخت بود که می‌ماند» (دلتنگی‌ها ۸_۲۶).

نمونهٔ برجستهٔ دیگر از این شاید که بتوان‌گفت «باهم‌سرایی» را در قطعه‌ای نُه‌سطری از اسماعیلِ شاهرودی، هوشنگِ بادیه‌نشین و یدالله رویایی، می‌توان دید. تفاوتِ این قطعه با نمونه‌های مشابه در آن است که این‌جا نیز مانندِ نمونه‌های مشارکتیِ فروغ و رویایی (در «دلتنگی‌ها») پیدا نیست کدام‌یک از شاعران کدامین سطر را سروده:

«توکلتُ علی‌الله»

  • مردِ ماهیگیر با نجوای بسم‌الله
  • قایقِ خود را بسانِ قایقِ خورشید
  • روی ناهموارِ موج آهسته‌می‌رانَد
  • دست‌هایش می‌سراید آیت‌الکرسی به هر آمد-شدِ پارو
  • و نگاهش می‌دهدپرواز صدها مرغِ سبزِ بادها را در فضای قصرهای موج
  • آفتابِ گرم را با جلوهٔ هر یاد می‌خوانَد
  • آفتاب اما نمی‌داند که مردی هست و موجی از توکلت‌ُ علی‌الله در سرش سرشارِ ماهی‌ها
  • وینک آیا در درونِ تورِ ماهی‌گیر
  • حسرتِ صد ماهیِ چالاک می‌ماند؟
    (اسماعیلِ شاهرودی، مجموعه اشعار، انتشاراتِ نگاه، ۱۳۹۰، صص ۱-۳۴۰).

* عنوانِ گروه؛ و دراصل نامِ مِلکی از امیل زولا که ناتورالیست‌ها در آن گردهم‌می‌آمدند.

استاد گرامی در دو نوشتهٔ دیگر نیز به همین مسئله اشاره کرده‌اند. یک جا شعری مشترک از رؤیایی و فروغ را که در نوشتهٔ پیشین دربارهٔ آن صحبت کرده بودند آورده‌اند و جای دیگر همین اخیراً دربارهٔ شعر طنز دیگری سرودهٔ شاعران عضو محفل قمپز صحبت کرده‌اند.

غرض از نقل این مقدمه آن بود که به دوستان شاعر ابزاری را که برنامه‌نویسان برای برنامه‌نویسی مشارکتی از آن استفاده می‌کنند معرفی کنم. این ابزار سورس کنترل نام دارد و پرطرفدارترین نرم‌افزاری که امکانات چنین ابزاری را در دسترس می‌گذارد گیت (git) نام دارد که بدون نیاز به نصب نرم‌افزار از طریق سایت گیتهاب قابل استفاده است.

روش استفاده از آن به این صورت است که می‌توانید با تعریف یک پروژه، یک فایل متنی در آن ایجاد کنید. سپس کاربران دیگر یک کپی از پروژهٔ شما بسازند (به اصطلاح آن را فورک کنند) و فایل متنی شما را ویرایش کنند. یا کلمات آن را تغییر دهند یا خطوطی از آن را حذف و خطوط جدیدی به آن اضافه کنند. تغییرات آنها روی پروژهٔ شما تأثیر نمی‌گذارد. اما آنها می‌توانند درخواست کنند که تغییراتشان روی پروژهٔ شما اعمال شود (به اصطلاح پول‌ریکوئست (pull request) بزنند). شما می‌توانید درخواست تغییرات دریافتی را رد کنید یا آن را بپذیرید و روی فایل متنی اصلی اعمال کنید. به این ترتیب تاریخچهٔ تغییرات، این که چه کسی چه تغییری را داده و کدام خط سرودهٔ چه کسی است در تاریخچهٔ پروژه قابل مشاهده خواهد بود.

استفاده از گیت برای سرودن مشارکتی شعر!

معرفی «نسکبان»: جستجو در متن سی هزار کتاب فارسی

خلاصه و اصل مطلب (اگر حوصله ندارید پاراگراف‌های بعد را بخوانید): در سایت نسکبان به نشانی naskban.ir امکان مرور و جستجو در متن بیش از سی‌هزار کتاب فارسی با قالب PDF دریافت شده از کتابخانهٔ اینترنتی سها را دارید. قابلیت‌های افزودهٔ آن بر سها، امکان جستجو در متن کتاب‌ها، نشانی‌های یکتا برای صفحات کتاب‌ها و امکان فهرست‌گذاری گنجور بر اساس کتاب‌های چاپ شدهٔ در دسترس از طریق آن است. برای دسترسی به و استفاده از آن باید در آن نام‌نویسی کنید.

پردهٔ اول: روزگاری دور (چهارده سال پیش) یکی از همراهان گنجور با من تماس گرفت و گفت شعری از پروین اعتصامی در کتابهای درسی دوران ابتداییشان بوده که اکنون در میان آثار پروین نیست. علی‌رغم آن که عموماً من از دست بردن در آثار و اضافه کردن جامانده‌های اینچنینی پرهیز می‌کنم نمی‌دانم به چه دلیل -شاید برای راضی کردن دل خودم و آقای رضا سیمی- آن را به ته مثنویات پروین چسباندم. کمی بعد دوستانی آمدند و زیر آن نوشتند که از پروین نیست و یا از ایرج میرزاست یا از عباس یمینی شریف. از آن جهت دل‌چرکین شدم و علی‌الحساب با وجود آن که شعر هنوز ذیل آثار پروین هست در عنوانش گوشزد کردم که شاعر شعر ناشناخته است.

جوجهٔ نافرمان

دوست داشتم منبع نقل این کتاب را پیدا کنم و ببینم از کیست. اما چطور؟ چطور می‌شود کتاب مرجع را پیدا کرد؟ این دغدغه با من بود تا آن که ابزارش را ساختم و در هنگام نوشتن این متن آن را یافتم: اینجا (برای مشاهدهٔ این صفحات می‌بایست در نسکبان که جلوتر معرفیش می‌کنم نام‌نویسی کنید)، کمی اینجا، کمی اینجا و کمی هم اینجا و اینجا. اما مسأله هنوز حل نشده. در کتاب چاپی نام شاعر ذکر نشده. منتهی یکی از دلایلی که امروز می‌توانم در مخزن بزرگی از کتابهای چاپی چنین جستجویی انجام دهم دغدغهٔ گشودن رمز این معما بود. معمایی که با این حکمت گشوده نشد.

پردهٔ دوم: هدف اولیهٔ ساخت گنجینهٔ گنجور افزودن آب و رنگ به حال و هوای خشک و متن‌زدهٔ گنجور با استفاده از نسخه‌های نفیس خطی خصوصاً آنها که نقاشی داشتند بود. در ادامه و با توجه به آن که برای تصحیح خطاهای تایپی نیاز بود تصویر نسخه‌های کاغذی مرجع اشعار را ببینیم تصاویر کتابهای چاپی را نیز به آن افزودم.

گنجینهٔ گنجور از آغاز برای نگهداری تصاویر باکیفیت از نسخه‌های نفیس طراحی شده بود و برای در دسترس‌گذاری کتابهای چاپی، می‌بایست آنها را از PDF به تصویر تبدیل می‌کردم. فرایندی که با وجود کاهش کیفیت تصاویر به نسبت فایل PDF مورد استفاده باعث افزایش چندبرابری حجم آن می‌شود.

به خاطر این مشکل تصمیم گرفتم که سامانه‌ای جدا برای نگهداری فایل‌های PDF طراحی کنم که در آن نیاز نباشد قالب فایل اصلی تغییر کند در عین حال بتواند امکاناتی مشابه گنجینهٔ گنجور شامل نشانی یکتا برای هر صفحه از فایل را فراهم کند. همینطور امکان فهرست‌گذاری کتاب مطابق با متن گنجور نیز در آن وجود داشته باشد.

در جستجو برای منبعی متمرکز از فایل‌های PDF قابل استفاده در ابتدا به کتابخانهٔ‌ تخصصی ادبیات و از آنجا به سها رسیدم. مجموعه‌ای عظیم از هزاران کتاب قابل دریافت در قالب PDF با ابرداده‌های توصیف‌کنندهٔ محتوای کتابها که البته من را در فیلتر و حذف کتابهای غیرفارسی آن به زحمت انداخت (عمدتاً فکر می‌کنم مشکل پیدا نشدهٔ کدهای خودم باشد) اما تلاشی که برای راه‌اندازی آن چه جمع‌آوری کتابهای پیشتر اسکن شده و چه اسکن کتابهای اسکن نشده شده شگفت‌انگیز و باورنکردنی است. به راستی که دستمریزاد!

از آنجا که حجم و جنس داده‌های پروژهٔ جدید از گنجینهٔ گنجور متفاوت بود آن را از گنجور و گنجینه‌اش جدا کردم به این معنی که اطلاعات آن در پایگاه داده‌هایی مجزا و هم‌اکنون روی سروری مجزا نگهداری می‌شود (سروری که برای پشتیبان‌گیری از گنجور تهیه شده). از این جهت کاربران نام‌نویسی شده در آن نیز با گنجور یکی نیستند و کاربران می‌بایست برای استفاده از امکانات اختصاصی در آن جداگانه نام‌نویسی کنند.

نام این سامانهٔ جدید نسکبان است (نام دامنه‌ای که سالها پیش با هدف میزبانی گنجینهٔ گنجور ثبت شده بود و با تصمیم به ثبت آن به عنوان زیردامنه‌ای از گنجور بلااستفاده مانده بود). سامانه‌ای که به نوعی خود فهرستی بر سهاست (در آینده ممکن است منابع دیگری نیز به آن افزوده شود)، اما امکانات اضافه‌ای ارائه می‌کند.

ویژگی‌ها و امکانات مهم نسکبان در حال حاضر به شرح زیر است:

۱. هر کتاب و هر صفحه از هر کتاب در آن نشانی مجزایی دارد. از این جهت می‌توانید به صفحات کتابها در آن لینک بدهید. نشانی کتاب‌ها یک عدد (شناسهٔ آنها) و شناسهٔ صفحات کتاب‌ها شمارهٔ صفحات آنها بعد از خط کج (/) جدا شده از شناسهٔ کتاب متناظرشان است.

شناسهٔ کتاب و شمارهٔ صفحه در نشانی‌های نسک‌بلن

امکان کپی آسان لینک صفحات (کتاب‌ها، صفحات کتاب‌ها و جستجوها) نیز در نظر گرفته شده است.

کپی نشانی صفحه یا کتاب به حافظه
تایپ شمارهٔ صفحه و رفتن به آن

۲. متن (تقریباً) تمام کتاب‌ها با استفاده از نرم‌افزار بازمتن تسرکت (tesseract) که از زبان فارسی نیز پشتیبانی می کند OCR شده است و می‌توانید در متن آنها بگردید (قطعاً خروجی OCR پراشکال است اما برای یافتن شواهد به اندازهٔ کافی خوب است، ضمناً با توجه به سخت‌افزار سرور فعلی نسکبان باید در جستجوی تمام‌متنی پرحوصله باشید).

جستجوی پیش‌فرض در ابرداده‌های کتاب‌ها (عناوین و نام پدیدآورندگان و …) انجام می‌شود و برای جستجو در متن کتاب‌ها باید از دکمهٔ دیگری استفاده کنید:

جستجو در متن

می‌توانید عبارتی را در متن تمام کتاب‌ها بگردید (اگر می‌خواهید عبارتی ترکیبی را به طور دقیق جستجو کنید آن را بین دو علامت قرار دهید). در صفحهٔ نتایج فهرست تمام کتاب‌هایی را خواهید دید که این متن در آنها یافت شده است.

نتایج جستجو

با انتخاب هر کتاب از نتایج نمایش داده شده، عبارت جستجو شده دوباره در متن آن کتاب جستجو می‌شود و تصاویر صفحات حاوی آن به همراه متن حاوی عبارت به صورت برجسته‌شده نمایش داده می‌شوند.

نمایش نتایج در یک کتاب

با انتخاب هر صفحه می‌توانید تصویر آن صفحه را ببینید. امکان آن که از ابتدا عبارتی را در یک کتاب خاص بگردید نیز وجود دارد. آن را باز کنید. امکان جستجو در متن آن (اگر OCR شده باشد) از کادر بالای آن وجود دارد.

جستجو در متن یک کتاب خاص

۳. کاربران می‌توانند کتاب‌ها و صفحات آنها را نشان کنند و به فهرست نشان‌شده‌هایشان دسترسی دارند.

نشان شده
نشان شده‌ها

۴. از کارکردهای ثانویه که بگذریم 😉 امکان فهرست‌گذاری صفحات کتاب‌های نسکبان با متن گنجور فراهم شده است. لذا می‌توان امیدوار بود که در آینده منابع چاپی همهٔ متون گنجور را با استفاده از آن فهرست‌گذاری کنیم. روش کار مشابه همان کاری است که در گنجینهٔ گنجور انجام شده. پس از نام‌نویسی و ورود به نسکبان، کتاب مد نظر را پیدا می‌کنیم. وارد آن می‌شویم و زیر صفحه‌ای که با شعری از گنجور مرتبط است از دکمهٔ «پیشنهاد شعر مرتبط با گنجور» به صفحه‌ای مانند شکل بعد می‌رسیم که می‌توانیم در دو سمت صفحه نسکبان و گنجور را ببینیم و بین صفحات آنها مستقلاً حرکت کنیم.

پیشنهاد شعر مرتبط در گنجور

۵. نسکبان هم‌اکنون روی سروری که برای پشتیبان‌گیری از داده‌های سرور اصلی گنجور تهیه شده میزبانی می‌شود. این سرور در ایران قرار دارد و احتمالاً با فیلترشکن‌ها و شاید با کاربران خارج از ایران مشکلاتی داشته باشد. از آنجا که مهمترین شاخص تهیهٔ این سرور فضای دیسک بوده مشخصات سخت‌افزاری خوبی هم ندارد. به این دلایل انتظار ندارم که این سرور در برابر ترافیک بالای ورودی پاسخگویی مناسبی داشته باشد. خصوصاً که جستجوی متنی داخل همهٔ کتابها نیز پردازهٔ سنگینی است. در آینده پروژه‌های امیدوارکننده‌ای مانند ایران سرچ و همینطوراحتمالاً خود سها و کتابخانهٔ ادبیات -اگر قابلیت جستجوی متنی داخل کتاب‌ها را اضافه کنند- می‌توانند جایگزین‌های پایدارتری برای نسکبان باشند و کارکرد نسکبان بیشتر به یکپارچگی آن با گنجور محدود شود. بسته به استقبال و میزان پایداری شاید در آینده سرور بهتری برای نسکبان تهیه کردم تا پاسخگویی بالاتری داشته باشد. در حال حاضر و با توجه به شلختگی کلی در طراحی و کمبود امکانات نرم‌افزاری نسکبان و همینطور سرور و سخت‌افزار زغالی با توجه به کارکردهای -در حال حاضر- به نظر بی‌نظیرش، نسکبان رتبهٔ بالاتری به نسبت گنجور در کسب عنوان «لنگه کفش کهنه در بیابان» کسب می‌کند 😉 !

نسکبان جای زیادی برای کار و بهبود دارد. برای آن که کنترل بهتری روی آن داشته باشم استفاده از آن را منوط به نام‌نویسی و ورود کاربران کرده‌ام. به این ترتیب از ایندکس شدن میلیون‌ها صفحهٔ آن روی گوگل جلوگیری می‌کنم، آمار دقیقی از میزان استفاده از آن دارم، احتمالاً حجم استفاده از آن به دلیل آن که بسیاری از سد نام‌نویسی و ایجاد حساب کاربری عبور نمی‌کنند پایین و کارایی آن با وجود سخت‌افزار ضعیف معقول باقی می‌ماند و اگر بعدها خواستم آن را واگذار کنم مالک و نگه‌دارندهٔ بعدی دست بازتری روی انتخاب آن که آن را چطور می‌خواهد در اختیار کاربر نهایی قرار دهد خواهد داشت.