مجمل (اگر حوصله ندارید پاراگرافهای بعد را بخوانید): در روزهای اخیر پای خیلی از اشعار گنجور میتوانید تصاویر مراجع چاپی آنها را مشاهده کنید. اگر لزوماً تصویر معرفی شده به عنوان «منبع کاغذی گنجور» با متن شعر همخوانی ندارد نگران نباشید این یک فرایند خودکار در حال تکمیل است که امید است در صورت فراهم شدن پایداری حداقلی در ارتباط اینترنتی داخل ایران زودتر به ثمر برسد و نتایج دقیقتر شود.
حدیث مفصّل: یکی از مهمترین اهداف پشت ایجاد نسکبان لینک کردن متون گنجور با منابع کاغذی آن بوده است. فرایندی که با توجه به حجم و تنوع بالای متون گنجور انجام آن به شکل دستی محتاج سالها کار نیروی انسانی است. این کار از این جهت لازم و ضروری است که:
- بتوانیم با مراجعه به متن چاپی متوجه شویم کلمات مشکوک به ایراد تایپی در گنجور آیا واقعاً ایراد تایپی هستند یا با توجه به مرجع چاپی درستند.
- از جانب دیگر برای پژوهشگران امکان این را فراهم میآوریم که بتوانند در آثارشان به صفحات کاغذی کتابها ارجاع بدهند.
- در کل هم، وجود تصویر مرجع چاپی میتواند شائبههای دستکاری متن در گنجور را کاهش دهد و اعتمادپذیری آن را بالا ببرد.
خوشبختانه این که متن کتابهای نسکبان OCR شده و با توجه به دقت نه چندان بالا اما معقول این فرایند به طور حدودی میتوانیم از متن معادل آنها در گنجور مطلع شویم راهکاری را برای فهرستگذاری خودکار متن گنجور بر اساس کتابهای نسکبان در اختیار ما میگذارد.
بر این اساس، با تعیین این که مرجع احتمالی متن هر بخش گنجور کدام کتاب نسکبان است میتوانیم با مقایسهٔ الگوریتمی متن گنجور با متن صفحات کتاب جای آن را در کتاب پیدا کنیم و آنها را با هم لینک کنیم.
الگوریتمی که برای انجام این کار طراحی شده به این صورت است که برای هر شعر از آغاز کتاب تا پایان آن صفحه به صفحه به اندازهای معادل متن شعر یا بخش متن منثور در گنجور متن برمیداریم (به طور معمول برای اشعار کوتاه یک صفحه و برای اشعار طولانی مثل قصاید چند صفحه انتخاب میشود). سپس آمار میگیریم که چند کلمه از متن گنجور در متن نسکبان صفحات انتخاب شده یافت میشوند و نسبتِ تعداد کلمات موجود به کل کلمات را پیدا میکنیم. آستانهای برای تعیین این که متن گنجور و نسکبان صفحات انتخاب شده مطابقت دارند در نظر میگیریم. مثلاً فرض میکنیم اگر ۷۰ درصد کلمات متن گنجور یافت شد این صفحات با هم مطابقت دارند. سپس مقایسه را تا پایان متن کتاب ادامه میدهیم تا اگر صفحهای در کتاب نسکبان با درصد مطابقت بالاتر پیدا شد آن را به عنوان صفحهٔ معادل انتخاب کنیم. به این ترتیب در نهایت در صورت پیدا کردن صفحاتی با مطابقت بالاتر از آستانهٔ تعیین شده، صفحهٔ دارای بالاترین مطابقت را به عنوان صفحهٔ معادل متن گنجور انتخاب میکنیم. در نهایت با توجه به تأثیر صفحات خالی یا صفحات عنوان که میتواند باعث شود صفحهای که در واقع با شعر گنجور مطابق است صفحه یا یکی از صفحات بعدی باشد و همینطور این که تکبیتها و رباعیها و اشعار کوتاه به لحاظ تعداد کلمات کمشان ممکن است با صفحات نامرتبط حاوی تمام کلماتشان تطبیق کنند فرایندهای الگوریتمی سادهای برای حذف موارد نامرتبط نیز آماده کردهایم تا تعداد موارد نامرتبط را کم کند.
در انتخاب این روش آزمایش و خطاهایی انجام شده، مثلاً ابتدا مقایسهٔ ترتیبی اشعار بخش و صفحات کتاب را امتحان کردیم که اگر چه برای بعضی از کتابها با سرعت خیلی بیشتری به نتیجه میرسید، برای بخشهایی از گنجور که کتاب مرجع ترتیب الفبایی نداشته و ما در گنجور اشعار را به ترتیب حروف قافیه مرتب کردهایم کارایی ندارد. پیدا کردن اولین صفحه از کتاب با مطابقت بالاتر از آستانه و عدم بررسی صفحات بعدی نیز به خصوص برای اشعار کوتاه مانند رباعیها که احتمال آن وجود دارد که بسیاری از کلماتشان در صفحات نامربوط کتاب پیدا شوند ایجاد مشکل میکند.
الگوریتم طراحی شده به دلیل بررسی کل متن کتاب بسیار زمانبر است اما در بررسی تصادفی به عمل آمده دقت قابل قبولی دارد و میتوان با اختصاص منابع پردازشی به آن این نقیصه یعنی زمانبر بودنش را جبران کرد.
خودکارسازی این فرایند با حذف نیاز به نیروی انسانی میتواند در آینده امکان این را هم اضافه کند که علاوه بر چاپهای مرجع گنجور، متن شعر را در چاپها و تصحیحهای دیگر نیز پیدا کنیم و آنها را با شعر لینک کنیم و در آینده بتوانیم متن شعر را در نسخههای بدل چاپی دیگر نیز در دسترس داشته باشیم و بررسی کنیم.
متأسفانه با توجه به این که سرور نسکبان در ایران قرار دارد و طی روزهای اخیر اختلالات همیشگی اینترنت ایران شدیدتر شده این که این فرایند چه زمانی تکمیل شود چندان در کنترل ما نیست (لازمهٔ پیشرفت این فرایند ارتباط پایدار سرور گنجور که در خارج از ایران قرار دارد با این سرور در داخل ایران است). تا کنون کتابهای مرتبط با اشعار تا حدود قرن هفتم مشخص شده و در صف پردازش قرار گرفتهاند که پیش از شدت گرفتن این اختلالات با سرعت مناسبی در حال پردازش و تکمیل بودهاند.
بعد از پایان فرایند تطبیق متن کتابهای چاپی با متن گنجور مرحلهٔ دیگری را آغاز خواهیم کرد که بین چند نسخهٔ چاپی مرتبط با یک بخش در گنجور بخشی را که با احتمال بالا منبع کاغذی گنجور بوده با الگوریتمهایی مشابه همان الگوریتمهای آماری که شرحشان آمد پیدا کنیم. تا آن زمان، اولین نسخهٔ چاپی پردازش شده به عنوان مرجع معرفی شده (تا دسترسی به آن از طریق ویرایشگر متن گنجور آسان باشد) اما در عمومِ موارد، لزوماً این موارد مرجع کاغذی گنجور نبودهاند.
درود و آفرین بر شما برای این کار بسیار ارزشمند