معرفی «نسکبان»: جستجو در متن سی هزار کتاب فارسی

2 مارس 2024

خلاصه و اصل مطلب (اگر حوصله ندارید پاراگراف‌های بعد را بخوانید): در سایت نسکبان به نشانی naskban.ir امکان مرور و جستجو در متن بیش از سی‌هزار کتاب فارسی با قالب PDF دریافت شده از کتابخانهٔ اینترنتی سها را دارید. قابلیت‌های افزودهٔ آن بر سها، امکان جستجو در متن کتاب‌ها، نشانی‌های یکتا برای صفحات کتاب‌ها و امکان فهرست‌گذاری گنجور بر اساس کتاب‌های چاپ شدهٔ در دسترس از طریق آن است. برای دسترسی به و استفاده از آن باید در آن نام‌نویسی کنید.

پردهٔ اول: روزگاری دور (چهارده سال پیش) یکی از همراهان گنجور با من تماس گرفت و گفت شعری از پروین اعتصامی در کتابهای درسی دوران ابتداییشان بوده که اکنون در میان آثار پروین نیست. علی‌رغم آن که عموماً من از دست بردن در آثار و اضافه کردن جامانده‌های اینچنینی پرهیز می‌کنم نمی‌دانم به چه دلیل -شاید برای راضی کردن دل خودم و آقای رضا سیمی- آن را به ته مثنویات پروین چسباندم. کمی بعد دوستانی آمدند و زیر آن نوشتند که از پروین نیست و یا از ایرج میرزاست یا از عباس یمینی شریف. از آن جهت دل‌چرکین شدم و علی‌الحساب با وجود آن که شعر هنوز ذیل آثار پروین هست در عنوانش گوشزد کردم که شاعر شعر ناشناخته است.

جوجهٔ نافرمان

دوست داشتم منبع نقل این کتاب را پیدا کنم و ببینم از کیست. اما چطور؟ چطور می‌شود کتاب مرجع را پیدا کرد؟ این دغدغه با من بود تا آن که ابزارش را ساختم و در هنگام نوشتن این متن آن را یافتم: اینجا (برای مشاهدهٔ این صفحات می‌بایست در نسکبان که جلوتر معرفیش می‌کنم نام‌نویسی کنید)، کمی اینجا، کمی اینجا و کمی هم اینجا و اینجا. اما مسأله هنوز حل نشده. در کتاب چاپی نام شاعر ذکر نشده. منتهی یکی از دلایلی که امروز می‌توانم در مخزن بزرگی از کتابهای چاپی چنین جستجویی انجام دهم دغدغهٔ گشودن رمز این معما بود. معمایی که با این حکمت گشوده نشد.

پردهٔ دوم: هدف اولیهٔ ساخت گنجینهٔ گنجور افزودن آب و رنگ به حال و هوای خشک و متن‌زدهٔ گنجور با استفاده از نسخه‌های نفیس خطی خصوصاً آنها که نقاشی داشتند بود. در ادامه و با توجه به آن که برای تصحیح خطاهای تایپی نیاز بود تصویر نسخه‌های کاغذی مرجع اشعار را ببینیم تصاویر کتابهای چاپی را نیز به آن افزودم.

گنجینهٔ گنجور از آغاز برای نگهداری تصاویر باکیفیت از نسخه‌های نفیس طراحی شده بود و برای در دسترس‌گذاری کتابهای چاپی، می‌بایست آنها را از PDF به تصویر تبدیل می‌کردم. فرایندی که با وجود کاهش کیفیت تصاویر به نسبت فایل PDF مورد استفاده باعث افزایش چندبرابری حجم آن می‌شود.

به خاطر این مشکل تصمیم گرفتم که سامانه‌ای جدا برای نگهداری فایل‌های PDF طراحی کنم که در آن نیاز نباشد قالب فایل اصلی تغییر کند در عین حال بتواند امکاناتی مشابه گنجینهٔ گنجور شامل نشانی یکتا برای هر صفحه از فایل را فراهم کند. همینطور امکان فهرست‌گذاری کتاب مطابق با متن گنجور نیز در آن وجود داشته باشد.

در جستجو برای منبعی متمرکز از فایل‌های PDF قابل استفاده در ابتدا به کتابخانهٔ‌ تخصصی ادبیات و از آنجا به سها رسیدم. مجموعه‌ای عظیم از هزاران کتاب قابل دریافت در قالب PDF با ابرداده‌های توصیف‌کنندهٔ محتوای کتابها که البته من را در فیلتر و حذف کتابهای غیرفارسی آن به زحمت انداخت (عمدتاً فکر می‌کنم مشکل پیدا نشدهٔ کدهای خودم باشد) اما تلاشی که برای راه‌اندازی آن چه جمع‌آوری کتابهای پیشتر اسکن شده و چه اسکن کتابهای اسکن نشده شده شگفت‌انگیز و باورنکردنی است. به راستی که دستمریزاد!

از آنجا که حجم و جنس داده‌های پروژهٔ جدید از گنجینهٔ گنجور متفاوت بود آن را از گنجور و گنجینه‌اش جدا کردم به این معنی که اطلاعات آن در پایگاه داده‌هایی مجزا و هم‌اکنون روی سروری مجزا نگهداری می‌شود (سروری که برای پشتیبان‌گیری از گنجور تهیه شده). از این جهت کاربران نام‌نویسی شده در آن نیز با گنجور یکی نیستند و کاربران می‌بایست برای استفاده از امکانات اختصاصی در آن جداگانه نام‌نویسی کنند.

نام این سامانهٔ جدید نسکبان است (نام دامنه‌ای که سالها پیش با هدف میزبانی گنجینهٔ گنجور ثبت شده بود و با تصمیم به ثبت آن به عنوان زیردامنه‌ای از گنجور بلااستفاده مانده بود). سامانه‌ای که به نوعی خود فهرستی بر سهاست (در آینده ممکن است منابع دیگری نیز به آن افزوده شود)، اما امکانات اضافه‌ای ارائه می‌کند.

ویژگی‌ها و امکانات مهم نسکبان در حال حاضر به شرح زیر است:

۱. هر کتاب و هر صفحه از هر کتاب در آن نشانی مجزایی دارد. از این جهت می‌توانید به صفحات کتابها در آن لینک بدهید. نشانی کتاب‌ها یک عدد (شناسهٔ آنها) و شناسهٔ صفحات کتاب‌ها شمارهٔ صفحات آنها بعد از خط کج (/) جدا شده از شناسهٔ کتاب متناظرشان است.

شناسهٔ کتاب و شمارهٔ صفحه در نشانی‌های نسک‌بلن

امکان کپی آسان لینک صفحات (کتاب‌ها، صفحات کتاب‌ها و جستجوها) نیز در نظر گرفته شده است.

کپی نشانی صفحه یا کتاب به حافظه
تایپ شمارهٔ صفحه و رفتن به آن

۲. متن (تقریباً) تمام کتاب‌ها با استفاده از نرم‌افزار بازمتن تسرکت (tesseract) که از زبان فارسی نیز پشتیبانی می کند OCR شده است و می‌توانید در متن آنها بگردید (قطعاً خروجی OCR پراشکال است اما برای یافتن شواهد به اندازهٔ کافی خوب است، ضمناً با توجه به سخت‌افزار سرور فعلی نسکبان باید در جستجوی تمام‌متنی پرحوصله باشید).

جستجوی پیش‌فرض در ابرداده‌های کتاب‌ها (عناوین و نام پدیدآورندگان و …) انجام می‌شود و برای جستجو در متن کتاب‌ها باید از دکمهٔ دیگری استفاده کنید:

جستجو در متن

می‌توانید عبارتی را در متن تمام کتاب‌ها بگردید (اگر می‌خواهید عبارتی ترکیبی را به طور دقیق جستجو کنید آن را بین دو علامت قرار دهید). در صفحهٔ نتایج فهرست تمام کتاب‌هایی را خواهید دید که این متن در آنها یافت شده است.

نتایج جستجو

با انتخاب هر کتاب از نتایج نمایش داده شده، عبارت جستجو شده دوباره در متن آن کتاب جستجو می‌شود و تصاویر صفحات حاوی آن به همراه متن حاوی عبارت به صورت برجسته‌شده نمایش داده می‌شوند.

نمایش نتایج در یک کتاب

با انتخاب هر صفحه می‌توانید تصویر آن صفحه را ببینید. امکان آن که از ابتدا عبارتی را در یک کتاب خاص بگردید نیز وجود دارد. آن را باز کنید. امکان جستجو در متن آن (اگر OCR شده باشد) از کادر بالای آن وجود دارد.

جستجو در متن یک کتاب خاص

۳. کاربران می‌توانند کتاب‌ها و صفحات آنها را نشان کنند و به فهرست نشان‌شده‌هایشان دسترسی دارند.

نشان شده
نشان شده‌ها

۴. از کارکردهای ثانویه که بگذریم 😉 امکان فهرست‌گذاری صفحات کتاب‌های نسکبان با متن گنجور فراهم شده است. لذا می‌توان امیدوار بود که در آینده منابع چاپی همهٔ متون گنجور را با استفاده از آن فهرست‌گذاری کنیم. روش کار مشابه همان کاری است که در گنجینهٔ گنجور انجام شده. پس از نام‌نویسی و ورود به نسکبان، کتاب مد نظر را پیدا می‌کنیم. وارد آن می‌شویم و زیر صفحه‌ای که با شعری از گنجور مرتبط است از دکمهٔ «پیشنهاد شعر مرتبط با گنجور» به صفحه‌ای مانند شکل بعد می‌رسیم که می‌توانیم در دو سمت صفحه نسکبان و گنجور را ببینیم و بین صفحات آنها مستقلاً حرکت کنیم.

پیشنهاد شعر مرتبط در گنجور

۵. نسکبان هم‌اکنون روی سروری که برای پشتیبان‌گیری از داده‌های سرور اصلی گنجور تهیه شده میزبانی می‌شود. این سرور در ایران قرار دارد و احتمالاً با فیلترشکن‌ها و شاید با کاربران خارج از ایران مشکلاتی داشته باشد. از آنجا که مهمترین شاخص تهیهٔ این سرور فضای دیسک بوده مشخصات سخت‌افزاری خوبی هم ندارد. به این دلایل انتظار ندارم که این سرور در برابر ترافیک بالای ورودی پاسخگویی مناسبی داشته باشد. خصوصاً که جستجوی متنی داخل همهٔ کتابها نیز پردازهٔ سنگینی است. در آینده پروژه‌های امیدوارکننده‌ای مانند ایران سرچ و همینطوراحتمالاً خود سها و کتابخانهٔ ادبیات -اگر قابلیت جستجوی متنی داخل کتاب‌ها را اضافه کنند- می‌توانند جایگزین‌های پایدارتری برای نسکبان باشند و کارکرد نسکبان بیشتر به یکپارچگی آن با گنجور محدود شود. بسته به استقبال و میزان پایداری شاید در آینده سرور بهتری برای نسکبان تهیه کردم تا پاسخگویی بالاتری داشته باشد. در حال حاضر و با توجه به شلختگی کلی در طراحی و کمبود امکانات نرم‌افزاری نسکبان و همینطور سرور و سخت‌افزار زغالی با توجه به کارکردهای -در حال حاضر- به نظر بی‌نظیرش، نسکبان رتبهٔ بالاتری به نسبت گنجور در کسب عنوان «لنگه کفش کهنه در بیابان» کسب می‌کند 😉 !

نسکبان جای زیادی برای کار و بهبود دارد. برای آن که کنترل بهتری روی آن داشته باشم استفاده از آن را منوط به نام‌نویسی و ورود کاربران کرده‌ام. به این ترتیب از ایندکس شدن میلیون‌ها صفحهٔ آن روی گوگل جلوگیری می‌کنم، آمار دقیقی از میزان استفاده از آن دارم، احتمالاً حجم استفاده از آن به دلیل آن که بسیاری از سد نام‌نویسی و ایجاد حساب کاربری عبور نمی‌کنند پایین و کارایی آن با وجود سخت‌افزار ضعیف معقول باقی می‌ماند و اگر بعدها خواستم آن را واگذار کنم مالک و نگه‌دارندهٔ بعدی دست بازتری روی انتخاب آن که آن را چطور می‌خواهد در اختیار کاربر نهایی قرار دهد خواهد داشت.

۱۷ نظر برای “معرفی «نسکبان»: جستجو در متن سی هزار کتاب فارسی”

  1. صابر گفته:

    این یه کار بزرگ هست ممنون از زحماتی که می کشید

  2. محمد علی صدیقی گفته:

    دست مریزاد که در این آشفته بازار که زبان و ادب فارسی از هر سو مورد بی مهری است بزرگوارانه دست به این کار سترگ زده اید

  3. وصال کشاورز گفته:

    درود بر شما و اقدامات بی نظیرتان

  4. محمد حکیمی گفته:

    این کار بسیار ارزشمند است و منشا تاثیرات فراوان فرهنگی. سپاس فراوان بابت این زحمات بی مزد و بی منت.

  5. سعید گفته:

    با سلام
    واقعا متشکرم از این ذوق و زحمتی که شما برای گنجور کشیدید و نسک بان که ایده جدید شماست. چقدر خوبه که تونستید گنجینه های این مرز و بوم رو با تکنولوژی روز تلفیق کنید و چیزی رو در اختیار ما بگذارید که در تاریخ پیشین غیرممکن بوده. اینجانب به عنوان متخصص یو اکس که به ادبیات کمی آشنا ولی علاقمند است واقعا پروژه ی شما رو یوزرفرندلی به معنای صادقانه کلمه میبینم و انشاالله که هر روز موفق‌تر از پیش باشید.
    خیلی خیلی ممنون

  6. رضا از کرمان گفته:

    سلام
    درود خدا بر شما باد
    ایکاش شرایطی را فراهم میکردید تا دوستان بزرگوار وهمراهان گنجور بتوانند سروده های خودشان را در بخشی از سایت شما منعکس کنند تا اشعار ایشان در بین حاشیه ها مهجور نمانند باز هم تشکر از الطاف شما .

  7. متین گفته:

    از زحمات و اقدامات شما بسیار ممنون هستم و وب سایت گنجور برایم بسیار کار آمد است

  8. علی گفته:

    هر چند تشکر این حقیر از جنابعالی هرگز به قد و قامت تلاش شما نخواهد بود.اما آب دریا را گر نتوان کشید هم به قدر تشنگی باید چشید.
    امیدوارم من و خوانندگان شما بتوانیم تا سر حد امکان از نوشته های شما فیض ببریم و بهره مند گردیم.تا به مراد و هدف شما که دانایی و پیشرفت است نزدیک و نزدیکتر شویم.

  9. زهرا عبدپور گفته:

    سلام و درود بسیار عالی و کارگشاست .ممنون بابت زحمات

  10. رضا بیات گفته:

    با تمام وجود ممنونم. خدا به فکر و همتتان برکت بدهد.

  11. میلاد گفته:

    بی‌نظیر بوده و هستید.
    سزای قدر تو شاها به دست حافظ نیست
    جز از دعای شبی و نیاز صبحدمی

  12. رامین گفته:

    با درود
    سپاسگزار زحمات شما هستم. بسیار عالی.

  13. سیامک گفته:

    از شما متشکرم

  14. همایون سلیمانی گفته:

    زنده‌باد بر شما؛
    کار شما کم از کار بزرگانی که آثارشان در گنجور و نسک‌بان است، ندارد.
    پاینده و برقرار باشید.

  15. نورالله از تنکابن گفته:

    فقط خواندم و تشکر می کنم از زحمات شما

  16. علی چاوشی گفته:

    زنده باد. رنج شما در تاریخ ادب پارسی ماناست. هماره باورم این بوده که ایران و فرهنگ‌اش را همین کوشش‌ها و پویش‌های فردی نگاه می‌دارد و رشد می‌دهد.

  17. زهرا گفته:

    از زحمات شما قدردانی میکنیم
    من هربار در مراجعه به گنجور برای بانیان، دعا و ارزو بسیار میکنم.
    پاینده باشید.
    ایزد امثال شمارو بیشتر کنه.

نظرتان را بنویسید (نکتهٔ مهم: اگر برای نوشتن حاشیه در مورد شعرها اینجا آمده‌اید اشتباه آمده‌اید و باید در خود سایت گنجور حاشیه بگذارید. نظرات بی‌ربط به این نوشته پاک می‌شوند.)