فهرست‌گذاری خودکار متون گنجور بر اساس مراجع در دسترس از طریق نسکبان – در جریان …

12 آوریل 2024

مجمل (اگر حوصله ندارید پاراگراف‌های بعد را بخوانید): در روزهای اخیر پای خیلی از اشعار گنجور می‌توانید تصاویر مراجع چاپی آنها را مشاهده کنید. اگر لزوماً تصویر معرفی شده به عنوان «منبع کاغذی گنجور» با متن شعر همخوانی ندارد نگران نباشید این یک فرایند خودکار در حال تکمیل است که امید است در صورت فراهم شدن پایداری حداقلی در ارتباط اینترنتی داخل ایران زودتر به ثمر برسد و نتایج دقیق‌تر شود.

تصاویر منابع کاغذی گنجور در نسکبان

حدیث مفصّل: یکی از مهم‌ترین اهداف پشت ایجاد نسکبان لینک کردن متون گنجور با منابع کاغذی آن بوده است. فرایندی که با توجه به حجم و تنوع بالای متون گنجور انجام آن به شکل دستی محتاج سال‌ها کار نیروی انسانی است. این کار از این جهت لازم و ضروری است که:

  • بتوانیم با مراجعه به متن چاپی متوجه شویم کلمات مشکوک به ایراد تایپی در گنجور آیا واقعاً ایراد تایپی هستند یا با توجه به مرجع چاپی درستند.
  • از جانب دیگر برای پژوهشگران امکان این را فراهم می‌آوریم که بتوانند در آثارشان به صفحات کاغذی کتاب‌ها ارجاع بدهند.
  • در کل هم، وجود تصویر مرجع چاپی می‌تواند شائبه‌های دستکاری متن در گنجور را کاهش دهد و اعتمادپذیری آن را بالا ببرد.

خوشبختانه این که متن کتاب‌های نسکبان OCR شده و با توجه به دقت نه چندان بالا اما معقول این فرایند به طور حدودی می‌توانیم از متن معادل آنها در گنجور مطلع شویم راهکاری را برای فهرست‌گذاری خودکار متن گنجور بر اساس کتاب‌های نسکبان در اختیار ما می‌گذارد.

بر این اساس، با تعیین این که مرجع احتمالی متن هر بخش گنجور کدام کتاب نسکبان است می‌توانیم با مقایسهٔ الگوریتمی متن گنجور با متن صفحات کتاب جای آن را در کتاب پیدا کنیم و آنها را با هم لینک کنیم.

الگوریتمی که برای انجام این کار طراحی شده به این صورت است که برای هر شعر از آغاز کتاب تا پایان آن صفحه به صفحه به اندازه‌ای معادل متن شعر یا بخش متن منثور در گنجور متن برمی‌داریم (به طور معمول برای اشعار کوتاه یک صفحه و برای اشعار طولانی مثل قصاید چند صفحه انتخاب می‌شود). سپس آمار می‌گیریم که چند کلمه از متن گنجور در متن نسکبان صفحات انتخاب شده یافت می‌شوند و نسبتِ تعداد کلمات موجود به کل کلمات را پیدا می‌کنیم. آستانه‌ای برای تعیین این که متن گنجور و نسکبان صفحات انتخاب شده مطابقت دارند در نظر می‌گیریم. مثلاً فرض می‌کنیم اگر ۷۰ درصد کلمات متن گنجور یافت شد این صفحات با هم مطابقت دارند. سپس مقایسه را تا پایان متن کتاب ادامه می‌دهیم تا اگر صفحه‌ای در کتاب نسکبان با درصد مطابقت بالاتر پیدا شد آن را به عنوان صفحهٔ معادل انتخاب کنیم. به این ترتیب در نهایت در صورت پیدا کردن صفحاتی با مطابقت بالاتر از آستانهٔ تعیین شده، صفحهٔ دارای بالاترین مطابقت را به عنوان صفحهٔ معادل متن گنجور انتخاب می‌کنیم. در نهایت با توجه به تأثیر صفحات خالی یا صفحات عنوان که می‌تواند باعث شود صفحه‌ای که در واقع با شعر گنجور مطابق است صفحه یا یکی از صفحات بعدی باشد و همینطور این که تک‌بیت‌ها و رباعی‌ها و اشعار کوتاه به لحاظ تعداد کلمات کمشان ممکن است با صفحات نامرتبط حاوی تمام کلماتشان تطبیق کنند فرایندهای الگوریتمی ساده‌ای برای حذف موارد نامرتبط نیز آماده کرده‌ایم تا تعداد موارد نامرتبط را کم کند.

الگورریتم مشابه‌یابی

در انتخاب این روش آزمایش و خطاهایی انجام شده، مثلاً ابتدا مقایسهٔ ترتیبی اشعار بخش و صفحات کتاب را امتحان کردیم که اگر چه برای بعضی از کتابها با سرعت خیلی بیشتری به نتیجه می‌رسید، برای بخشهایی از گنجور که کتاب مرجع ترتیب الفبایی نداشته و ما در گنجور اشعار را به ترتیب حروف قافیه مرتب کرده‌ایم کارایی ندارد. پیدا کردن اولین صفحه از کتاب با مطابقت بالاتر از آستانه و عدم بررسی صفحات بعدی نیز به خصوص برای اشعار کوتاه مانند رباعی‌ها که احتمال آن وجود دارد که بسیاری از کلماتشان در صفحات نامربوط کتاب پیدا شوند ایجاد مشکل می‌کند.

الگوریتم طراحی شده به دلیل بررسی کل متن کتاب بسیار زمان‌بر است اما در بررسی تصادفی به عمل آمده دقت قابل قبولی دارد و می‌توان با اختصاص منابع پردازشی به آن این نقیصه یعنی زمان‌بر بودنش را جبران کرد.

خودکارسازی این فرایند با حذف نیاز به نیروی انسانی می‌تواند در آینده امکان این را هم اضافه کند که علاوه بر چاپ‌های مرجع گنجور، متن شعر را در چاپ‌ها و تصحیح‌های دیگر نیز پیدا کنیم و آنها را با شعر لینک کنیم و در آینده بتوانیم متن شعر را در نسخه‌های بدل چاپی دیگر نیز در دسترس داشته باشیم و بررسی کنیم.

متأسفانه با توجه به این که سرور نسکبان در ایران قرار دارد و طی روزهای اخیر اختلالات همیشگی اینترنت ایران شدیدتر شده این که این فرایند چه زمانی تکمیل شود چندان در کنترل ما نیست (لازمهٔ پیشرفت این فرایند ارتباط پایدار سرور گنجور که در خارج از ایران قرار دارد با این سرور در داخل ایران است). تا کنون کتابهای مرتبط با اشعار تا حدود قرن هفتم مشخص شده و در صف پردازش قرار گرفته‌اند که پیش از شدت گرفتن این اختلالات با سرعت مناسبی در حال پردازش و تکمیل بوده‌اند.

بعد از پایان فرایند تطبیق متن کتابهای چاپی با متن گنجور مرحلهٔ دیگری را آغاز خواهیم کرد که بین چند نسخهٔ چاپی مرتبط با یک بخش در گنجور بخشی را که با احتمال بالا منبع کاغذی گنجور بوده با الگوریتم‌هایی مشابه همان الگوریتم‌های آماری که شرحشان آمد پیدا کنیم. تا آن زمان، اولین نسخهٔ چاپی پردازش شده به عنوان مرجع معرفی شده (تا دسترسی به آن از طریق ویرایشگر متن گنجور آسان باشد) اما در عمومِ موارد، لزوماً این موارد مرجع کاغذی گنجور نبوده‌اند.

یک نظر برای “فهرست‌گذاری خودکار متون گنجور بر اساس مراجع در دسترس از طریق نسکبان – در جریان …”

  1. si گفته:

    درود و آفرین بر شما برای این کار بسیار ارزشمند

نظرتان را بنویسید (نکتهٔ مهم: اگر برای نوشتن حاشیه در مورد شعرها اینجا آمده‌اید اشتباه آمده‌اید و باید در خود سایت گنجور حاشیه بگذارید. نظرات بی‌ربط به این نوشته پاک می‌شوند.)