بایگانی ماه آوریل، 2024

فهرست‌گذاری خودکار متون گنجور بر اساس مراجع در دسترس از طریق نسکبان – در جریان …

جمعه، آوریل 12th، 2024

مجمل (اگر حوصله ندارید پاراگراف‌های بعد را بخوانید): در روزهای اخیر پای خیلی از اشعار گنجور می‌توانید تصاویر مراجع چاپی آنها را مشاهده کنید. اگر لزوماً تصویر معرفی شده به عنوان «منبع کاغذی گنجور» با متن شعر همخوانی ندارد نگران نباشید این یک فرایند خودکار در حال تکمیل است که امید است در صورت فراهم شدن پایداری حداقلی در ارتباط اینترنتی داخل ایران زودتر به ثمر برسد و نتایج دقیق‌تر شود.

تصاویر منابع کاغذی گنجور در نسکبان

حدیث مفصّل: یکی از مهم‌ترین اهداف پشت ایجاد نسکبان لینک کردن متون گنجور با منابع کاغذی آن بوده است. فرایندی که با توجه به حجم و تنوع بالای متون گنجور انجام آن به شکل دستی محتاج سال‌ها کار نیروی انسانی است. این کار از این جهت لازم و ضروری است که:

  • بتوانیم با مراجعه به متن چاپی متوجه شویم کلمات مشکوک به ایراد تایپی در گنجور آیا واقعاً ایراد تایپی هستند یا با توجه به مرجع چاپی درستند.
  • از جانب دیگر برای پژوهشگران امکان این را فراهم می‌آوریم که بتوانند در آثارشان به صفحات کاغذی کتاب‌ها ارجاع بدهند.
  • در کل هم، وجود تصویر مرجع چاپی می‌تواند شائبه‌های دستکاری متن در گنجور را کاهش دهد و اعتمادپذیری آن را بالا ببرد.

خوشبختانه این که متن کتاب‌های نسکبان OCR شده و با توجه به دقت نه چندان بالا اما معقول این فرایند به طور حدودی می‌توانیم از متن معادل آنها در گنجور مطلع شویم راهکاری را برای فهرست‌گذاری خودکار متن گنجور بر اساس کتاب‌های نسکبان در اختیار ما می‌گذارد.

بر این اساس، با تعیین این که مرجع احتمالی متن هر بخش گنجور کدام کتاب نسکبان است می‌توانیم با مقایسهٔ الگوریتمی متن گنجور با متن صفحات کتاب جای آن را در کتاب پیدا کنیم و آنها را با هم لینک کنیم.

الگوریتمی که برای انجام این کار طراحی شده به این صورت است که برای هر شعر از آغاز کتاب تا پایان آن صفحه به صفحه به اندازه‌ای معادل متن شعر یا بخش متن منثور در گنجور متن برمی‌داریم (به طور معمول برای اشعار کوتاه یک صفحه و برای اشعار طولانی مثل قصاید چند صفحه انتخاب می‌شود). سپس آمار می‌گیریم که چند کلمه از متن گنجور در متن نسکبان صفحات انتخاب شده یافت می‌شوند و نسبتِ تعداد کلمات موجود به کل کلمات را پیدا می‌کنیم. آستانه‌ای برای تعیین این که متن گنجور و نسکبان صفحات انتخاب شده مطابقت دارند در نظر می‌گیریم. مثلاً فرض می‌کنیم اگر ۷۰ درصد کلمات متن گنجور یافت شد این صفحات با هم مطابقت دارند. سپس مقایسه را تا پایان متن کتاب ادامه می‌دهیم تا اگر صفحه‌ای در کتاب نسکبان با درصد مطابقت بالاتر پیدا شد آن را به عنوان صفحهٔ معادل انتخاب کنیم. به این ترتیب در نهایت در صورت پیدا کردن صفحاتی با مطابقت بالاتر از آستانهٔ تعیین شده، صفحهٔ دارای بالاترین مطابقت را به عنوان صفحهٔ معادل متن گنجور انتخاب می‌کنیم. در نهایت با توجه به تأثیر صفحات خالی یا صفحات عنوان که می‌تواند باعث شود صفحه‌ای که در واقع با شعر گنجور مطابق است صفحه یا یکی از صفحات بعدی باشد و همینطور این که تک‌بیت‌ها و رباعی‌ها و اشعار کوتاه به لحاظ تعداد کلمات کمشان ممکن است با صفحات نامرتبط حاوی تمام کلماتشان تطبیق کنند فرایندهای الگوریتمی ساده‌ای برای حذف موارد نامرتبط نیز آماده کرده‌ایم تا تعداد موارد نامرتبط را کم کند.

الگورریتم مشابه‌یابی

در انتخاب این روش آزمایش و خطاهایی انجام شده، مثلاً ابتدا مقایسهٔ ترتیبی اشعار بخش و صفحات کتاب را امتحان کردیم که اگر چه برای بعضی از کتابها با سرعت خیلی بیشتری به نتیجه می‌رسید، برای بخشهایی از گنجور که کتاب مرجع ترتیب الفبایی نداشته و ما در گنجور اشعار را به ترتیب حروف قافیه مرتب کرده‌ایم کارایی ندارد. پیدا کردن اولین صفحه از کتاب با مطابقت بالاتر از آستانه و عدم بررسی صفحات بعدی نیز به خصوص برای اشعار کوتاه مانند رباعی‌ها که احتمال آن وجود دارد که بسیاری از کلماتشان در صفحات نامربوط کتاب پیدا شوند ایجاد مشکل می‌کند.

الگوریتم طراحی شده به دلیل بررسی کل متن کتاب بسیار زمان‌بر است اما در بررسی تصادفی به عمل آمده دقت قابل قبولی دارد و می‌توان با اختصاص منابع پردازشی به آن این نقیصه یعنی زمان‌بر بودنش را جبران کرد.

خودکارسازی این فرایند با حذف نیاز به نیروی انسانی می‌تواند در آینده امکان این را هم اضافه کند که علاوه بر چاپ‌های مرجع گنجور، متن شعر را در چاپ‌ها و تصحیح‌های دیگر نیز پیدا کنیم و آنها را با شعر لینک کنیم و در آینده بتوانیم متن شعر را در نسخه‌های بدل چاپی دیگر نیز در دسترس داشته باشیم و بررسی کنیم.

متأسفانه با توجه به این که سرور نسکبان در ایران قرار دارد و طی روزهای اخیر اختلالات همیشگی اینترنت ایران شدیدتر شده این که این فرایند چه زمانی تکمیل شود چندان در کنترل ما نیست (لازمهٔ پیشرفت این فرایند ارتباط پایدار سرور گنجور که در خارج از ایران قرار دارد با این سرور در داخل ایران است). تا کنون کتابهای مرتبط با اشعار تا حدود قرن هفتم مشخص شده و در صف پردازش قرار گرفته‌اند که پیش از شدت گرفتن این اختلالات با سرعت مناسبی در حال پردازش و تکمیل بوده‌اند.

بعد از پایان فرایند تطبیق متن کتابهای چاپی با متن گنجور مرحلهٔ دیگری را آغاز خواهیم کرد که بین چند نسخهٔ چاپی مرتبط با یک بخش در گنجور بخشی را که با احتمال بالا منبع کاغذی گنجور بوده با الگوریتم‌هایی مشابه همان الگوریتم‌های آماری که شرحشان آمد پیدا کنیم. تا آن زمان، اولین نسخهٔ چاپی پردازش شده به عنوان مرجع معرفی شده (تا دسترسی به آن از طریق ویرایشگر متن گنجور آسان باشد) اما در عمومِ موارد، لزوماً این موارد مرجع کاغذی گنجور نبوده‌اند.

دو قابلیت جدید: متن مشخصات مراجع خطی و چاپی و اشعار منتسب به چند سخنور در فهرست‌ها

چهارشنبه، آوریل 10th، 2024

متن مشخصات مراجع خطی و چاپی
 اشعار منتسب به چند سخنور در فهرست‌ها

گیت (git) و کابردهای آن برای شعر سرودن به شیوهٔ مشارکتی

جمعه، آوریل 5th، 2024

آقای دکتر احمدرضا بهرام‌پور عمران در کانال تلگرام خودشان تا به حال چند باری دربارهٔ «شعر مشارکتی» -شعری که چند شاعر در سرودن آن کمک می‌کنند- صحبت کرده‌اند.

از آن جمله:

شعرِ مشارکتی/ شعرِ چندشاعره

در اغلبِ رشته‌های هنری می‌توان نمونه‌هایی از آثار را برشمرد که با همکاری دو یا چند تن آفریده شده. گمان می‌کنم مشهورترین نمونه‌های این همکاری را باید در عالمِ موسیقی و آثارِ دوصدایی یا چندصدایی جُست. در شعرِ فارسی اما کهن‌ترین نمونه شاید همان ماجرای احتمالاً افسانه‌ای چگونگیِ راه‌یافتنِ فردوسی به دربارِ محمود، با سرودنِ مصراعِ «مانند سنانِ گیو در جنگِ پشن» در تکمیلِ یک رباعی باشد. [این افسانه را در تذکره الشعرای دولتشاه سمرقندی نیز می‌توانید در این صفحه بخوانید] در تاریخِ ادبیاتِ فارسی منظومه‌هایی ناتمام‌مانده (ازجمله منظومه‌ای از وحشیِ بافقی) نیز سراغ‌داریم که شاعر یا شاعرانی دیگر آن را به سرانجام‌رسانده‌اند. و این نمونه‌ها جدا از حک و اصلاح و چکش‌کاری‌های اساسیِ آثارِ شاعران از سوی دیگر شاعران یا منتقدان است. در شعرِ جهان اعمالِ ویرایشِ سخت‌گیرانهٔ ازرا پاوند بر «سرزمینِ بی‌حاصلِ» الیوت مشهور است؛ در شعرِ امروزِ فارسی نیز قطعه‌ای از شاملو که سطرهایی از آن را نیما (در مقامِ استاد) ویرایش‌‌کرده‌ و سطرهایی از آن را سروده است. ضمناً حسابِ اشعارِ مشارکتی یا دوشاعره و گاه چندشاعره، جدا از دفترهایی است که گاه ممکن است دو یا چند شاعر با قطعاتِ شخصی در دفتری واحد منتشرکنند؛ برجسته‌ترین نمونهٔ آن هم «ترانه‌‌ها/بالادهای غنایی» سرودهٔ کولریج و وردزورث است. گرچه اغلبِ قطعاتِ این مجموعه از آنِ وردزورث است اما قطعهٔ مشهورِ «دریانوردِ کهنسالِ» کولریج نیز در همین دفترِ مشترک آمده است. خواهران برونته (امیلی، شارلوت و آن) نیز مجموعه‌شعری را مشترکاً و با نام مستعار منتشرکردند؛ اثری که تنها دو نسخه از آن به فروش رسید. بیست و‌یک قطعه از این مجموعه سرودهٔ امیلی برونته بود (زن و ادبیات، گزینش و ترجمهٔ منیژه نجم عراقی و همکاران، نشر چشمه، ۱۳۸۲، ص ۳۹۴).‌ در ایران نیز صدرالدین الهی و غ. تاج‌بخش مجموعه‌ای مشترک با عنوانِ «خار» منتشرکردند. در عالمِ داستان‌نویسی نیز «شب‌های مِدان»، مجموعه‌داستانی مشارکتی است نوشتهٔ امیل زولا و هم‌فکرانش، در گروهِ «مِدان»*.

در شعرِ امروز مشهورترین قطعاتِ دوشاعره در دفترهای یدالله رویایی نمونه دارد. دلتنگی‌های ۵ و ۶ را رویایی و فروغ با هم سرودند و رویایی در توضیح آورده: «چقدر بدبختم من که هنوز مانده‌ام تا در این جهان بنویسم که دلتنگی‌های ۵ و ۶ را با فروغِ آن‌جهانی، با هم ساخته‌بودیم» (انتشاراتِ روزن، ۱۳۴۶، ص ۱۱۴). رویایی در یادداشتی دربارهٔ قطعه‌ای در دفترِ «دریایی‌ها» نیز یادآورشده: «سطرِ آخرِ صفحهٔ ۶۷ و سه سطرِ اولِ [صفحهٔ] ۶۸ از فروغ است» (انتشاراتِ روزن، ۱۳۴۷، ص ۷۸):

«دلتنگیِ ۶»

«شب در گریزِ اسبِ سیاه/ یک صف درخت/باقی‌می‌مانَد/ در چهار کهکشانِ نعل/ یک صف درخت/ بی‌شیهه می‌گذشت/ رگِ بریده دهان باز کرد و ریخت/ افقِ دراز/ دراز/ درازِ لخته‌لخته، درازِ مذاب/ زنی در اصطکاکِ ران‌هایش/ گُر می‌گرفت/ ستاره‌ای رسیده در تهِ خود چکه‌کرد/ صدایی از سرعت پرسید: کجا؟/ کجا؟/ اما جواب/ گذشتن بود/ و در گریزِ اسبِ سیاه/ سرعت پیاده‌می‌رفت/ سرعت صفِ درخت بود که می‌ماند» (دلتنگی‌ها ۸_۲۶).

نمونهٔ برجستهٔ دیگر از این شاید که بتوان‌گفت «باهم‌سرایی» را در قطعه‌ای نُه‌سطری از اسماعیلِ شاهرودی، هوشنگِ بادیه‌نشین و یدالله رویایی، می‌توان دید. تفاوتِ این قطعه با نمونه‌های مشابه در آن است که این‌جا نیز مانندِ نمونه‌های مشارکتیِ فروغ و رویایی (در «دلتنگی‌ها») پیدا نیست کدام‌یک از شاعران کدامین سطر را سروده:

«توکلتُ علی‌الله»

  • مردِ ماهیگیر با نجوای بسم‌الله
  • قایقِ خود را بسانِ قایقِ خورشید
  • روی ناهموارِ موج آهسته‌می‌رانَد
  • دست‌هایش می‌سراید آیت‌الکرسی به هر آمد-شدِ پارو
  • و نگاهش می‌دهدپرواز صدها مرغِ سبزِ بادها را در فضای قصرهای موج
  • آفتابِ گرم را با جلوهٔ هر یاد می‌خوانَد
  • آفتاب اما نمی‌داند که مردی هست و موجی از توکلت‌ُ علی‌الله در سرش سرشارِ ماهی‌ها
  • وینک آیا در درونِ تورِ ماهی‌گیر
  • حسرتِ صد ماهیِ چالاک می‌ماند؟
    (اسماعیلِ شاهرودی، مجموعه اشعار، انتشاراتِ نگاه، ۱۳۹۰، صص ۱-۳۴۰).

* عنوانِ گروه؛ و دراصل نامِ مِلکی از امیل زولا که ناتورالیست‌ها در آن گردهم‌می‌آمدند.

استاد گرامی در دو نوشتهٔ دیگر نیز به همین مسئله اشاره کرده‌اند. یک جا شعری مشترک از رؤیایی و فروغ را که در نوشتهٔ پیشین دربارهٔ آن صحبت کرده بودند آورده‌اند و جای دیگر همین اخیراً دربارهٔ شعر طنز دیگری سرودهٔ شاعران عضو محفل قمپز صحبت کرده‌اند.

غرض از نقل این مقدمه آن بود که به دوستان شاعر ابزاری را که برنامه‌نویسان برای برنامه‌نویسی مشارکتی از آن استفاده می‌کنند معرفی کنم. این ابزار سورس کنترل نام دارد و پرطرفدارترین نرم‌افزاری که امکانات چنین ابزاری را در دسترس می‌گذارد گیت (git) نام دارد که بدون نیاز به نصب نرم‌افزار از طریق سایت گیتهاب قابل استفاده است.

روش استفاده از آن به این صورت است که می‌توانید با تعریف یک پروژه، یک فایل متنی در آن ایجاد کنید. سپس کاربران دیگر یک کپی از پروژهٔ شما بسازند (به اصطلاح آن را فورک کنند) و فایل متنی شما را ویرایش کنند. یا کلمات آن را تغییر دهند یا خطوطی از آن را حذف و خطوط جدیدی به آن اضافه کنند. تغییرات آنها روی پروژهٔ شما تأثیر نمی‌گذارد. اما آنها می‌توانند درخواست کنند که تغییراتشان روی پروژهٔ شما اعمال شود (به اصطلاح پول‌ریکوئست (pull request) بزنند). شما می‌توانید درخواست تغییرات دریافتی را رد کنید یا آن را بپذیرید و روی فایل متنی اصلی اعمال کنید. به این ترتیب تاریخچهٔ تغییرات، این که چه کسی چه تغییری را داده و کدام خط سرودهٔ چه کسی است در تاریخچهٔ پروژه قابل مشاهده خواهد بود.

استفاده از گیت برای سرودن مشارکتی شعر!