فرایند انتشار مجموعه‌های جدید در گنجور

دوستان بر طبق راهنمایی که ۱۵ سال پیش (!) نوشته‌ام (اینجا) همت می‌کنند و مجموعه‌های جدیدی را برایم ارسال می‌کنند. به نظرم رسید که فرایند انتشار این مجموعه‌ها را (آن دسته‌ای را که روی سایت گنجور منتشر می‌شوند و نه آنهایی را که به دلیل معاصر بودن سخنور فقط از طریق گنجور رومیزی در دسترس قرار می‌گیرند) مستند کنم تا هم در آینده راهنما و مرجعی برای خود فراموشکارم باشد هم مستند و منبع شاید قابل استفاده‌ای برای دوستان در آینده.

۱. اولین کاری که من در مورد این مجموعه‌ها می‌کنم آن است که آنها را با گنجور رومیزی باز کنم و ایرادات ساختاری و فنی آنها را برطرف کنم و آنها را مرتب کنم. برای این کار نسخه‌های متعددی از گنجور رومیزی را روی کامپیوترم دارم که در فایل ganjoor.ini هر کدام مسیر پایگاه داده‌های مجزایی برای آنها تعیین کرده‌ام (توضیح بیشتر).

فایل ganjoor.ini

معمولاً نام فایل gdb ارسالی را به ganjoor.s3db تغییر می‌دهم و آن را جایگزین فایل موجود می‌کنم و گنجور رومیزی را از آن مسیر باز می‌کنم.

فهرست کارهایی که می‌کنم معمولاً شامل اینهاست:

  • خیلی وقتها بخش‌بندی مجموعهٔ ارسالی نامنظم است. از طریق زیرمنوهای «بخش جدید» در ویرایشگر یعنی «تغییر ترتیب اشعار بخش» و «تغییر ترتیب زیربخشها» اشعار و بخش‌ها را منتقل و مرتب می‌کنم.
تغییر ترتیب اشعار بخش
انتقال به بخش دیگر
  • با ابزارهای «محاسبهٔ حروف قافیه» و «بی‌قافیهٔ بعدی» در پنجرهٔ «تغییر ترتیب اشعار بخش» می‌توانم بعضی غلطهای تایپی یا ساختاری اشعار را پیدا کنم. مثلاً برای غزلها و قصیده‌ها پیدا نشدن قافیهٔ شعر به معنای غلط تایپی در جایگاه قافیه است یا ممکن است شعر در اصل قالب دیگری داشته باشد (در منوی «ابزارها»ی ویرایشگر «اشکالیاب قافیه» می‌تواند به پیدا کردن ایراد در اشعار طولانی کمک کند. ویرایشگر امکان چندبندی کردن اشعار و تغییر نوع مصاریع را می‌دهد.
  • انتظار می‌رود بلوکهای پاراگراف متنی برای متون منثور شامل enter نباشند. از منوی «ابزارها» برای رفع این ایراد استفاده می‌کنم. انتظار می‌رود که متون منثور حتی‌الامکان در بخش‌های کوتاه در دسترس قرار گیرند. گاهی متون طولانی را با استفاده از ابزارهای ویرایشگر می‌شکنم. گاهی متون اضافه شده توسط گردآورنده یا مصحح به عنوان بخشی از متن (پاراگراف نثر) در دسترس قرار گرفته‌اند. نوع این موارد را به «توضیح» تغییر می‌دهم (اگر متن حجیم نباشد و من حوصله و وقت داشته باشم).
تبدیل خطوط منتهی به پایان خط بخش به پاراگراف
منوی بیت جدید
  • در گنجور تلاش می‌کنیم که هر شعر مستقل حتی‌الامکان نشانی جداگانه داشته باشد. گاهی در مجموعه‌های دریافتی کل رباعیات یا تک‌بیت‌های یک دیوان درقالب یک شعر تایپ شده‌اند. با فرمانهای منوی «ابزارها»ی ویرایشگر آنها را می‌شکنم.
  • بعضی اشکالات ساختاری اشکال فنی محسوب می‌شوند و ساختار صفحات را به هم می‌ریزند. مثلاً هر «مصرع دوم»ی (مصرع سمت چپ در شعرهایی که دوستونی تایپ می‌شوند) حتماً باید مصرع اولی داشته باشد. این ایرادات را باز با همان منوی ابزارهای ویرایشگر پیدا و رفع می‌کنم.
  • یکی از اولویتهای گنجور «جستجوپذیری» است. جستجوپذیری با یکدست کردن متون بالا می‌رود. مثلاً در متون تایپ شدهٔ فارسی گاهی به دلیل آن که متن با ابزارهای قدیمی‌تر تایپ شده به جای «ی» استاندارد «ي» عربی با زیردونقطه استفاده شده یا از کاف عربی استفاده شده یا به جای «هٔ» از «ة» استفاده شده یا در متون بخشی از متن نقل قول شده به جای محصور شدن در گیومه در علامت نقل قول انگلیسی محصور شده یا در متن از اعداد انگلیسی استفاده شده. با «جایگزینی در پایگاه داده‌ها» در منوی ابزارها این مشکلات را حل می‌کنم (نکتهٔ مهم: این کار گاهی برای بعضی متون مثل تفسیرهای قرآن که متون واقعاً عربی دارند مشکل‌آفرین است. متأسفانه فعلاً راهکاری برای جلوگیری از لطمه به متون اصیل عربی در این جایگزینی‌ها نداریم، شاید پشتیبانی گنجور رومیزی از برچسب زبان برای بلوکهای متنی این مسئله را حل کند ولی بعید می‌دانم در آینده انرژی و انگیزهٔ کافی برای اینجور کارها در گنجور رومیزی پیدا کنم).
  • در گذشته با همان ابزارهای ویرایشگر شعرهای هر بخش را بر اساس قافیه مرتب می‌کردم. بعداً که درگیر فهرست‌گذاری متون با منابع چاپی (به شکل دستی و نه خودکار) شدم دیدم که ایجاد تناقض در ترتیب متن با منبع چاپی چقدر کار تطبیق را سخت می‌کند. ضمن آن که پیشتر هم مثلاً در مورد دیوان ملک‌الشعرای بهار که اشعار با ترتیب تاریخی مرتب شده‌اند دیده بودم که این کار در بعضی آثار اطلاعات بامعنایی را از بین می‌برد. در گذشته مرتب‌کردن بر اساس حروف قافیه در کتابهای چاپی پیدا کردن اشعار را آسان می‌کرد اما در منابع دیجیتال با وجود ابزارهای جستجو چنین کاری به اندازهٔ قدیم مفید نیست و به خاطر از بین بردن اطلاعات بامعنی که نمونه‌اش را ذکر کردم مضر هم هست. در انتشار مجموعه‌های جدید این کار را نمی‌کنم.
  • در مورد بخش‌هایی از مجموعه‌های ارسالی که عناوین معنی‌دار نیستند و ترتیبی هستند (شمارهٔ ۱، شمارهٔ ۲ یا …) با ابزارهای ویرایشگر گنجور رومیزی این عناوین را مجدداً تولید می‌کنم. گاهی این کار اشکالهایی را مثل جا افتادن شعرها یا … را آشکار می‌کند.
  • در گنجور بخش‌ها و شاعران و اشعار نامک‌های لاتین دارند (مثل hafez، divan و sh1). این نامکها کمک می‌کنند که نشانی یک بخش ساده، کوتاه و قابل پیش‌بینی باشد و بتوان بدون مرور سلسله‌مراتبی صفحات به یک شعر خاص رسید. برای بعضی عناوین متداول بخش‌ها مثل قصاید و غزلیات در کد گنجور نامک‌های لاتین ثابتی وجود دارد. برای غیرمتداول‌ها الگوریتمی برای تولید نامک لاتین وجود دارد که سعی می‌کنم به آن اتکا نکنم و نامک لاتین مد نظر خودم را با کاراکتر جداکنندهٔ | به انتهای عنوان بخش اضافه کنم. گنجور عنوان را بر اساس این جدا کننده دو بخش می‌کند و بخش دوم را به عنوان نامک لاتین استفاده می‌کند.
جداکنندهٔ عنوان بخش

پس از تکمیل آماده‌سازی مجموعه از گنجور رومیزی خروجی می‌گیرم.

۲. در گنجور رکورد اطلاعاتی سخنور جدید را ایجاد می‌کنم. در امکانات مدیریتی گنجور این امکان در بخش «سخنوران» در دسترس است. در بیشتر موارد زندگینامه یا شرح احوال شاعر ارسال نمی‌شود. سعی می‌کنم با کپی از اولین منبع دم دستی مثل ویکیپدیا و زودن اضافات یک زندگینامهٔ اولیه برای شاعر آماده کنم. در زندگینامهٔ شاعر نام کسی که اثر را برایم فرستاده می‌گنجانم (مگر این که خود او صریحاً خواسته باشد که نامش عنوان نشود). سال تولد و وفات سخنور را به هجری قمری وارد می‌کنم چون عموماً برای شاعران کهن معادل شمسی آنها به شکل آماده در دسترس نبوده و قرن زندگی سخنوران عموماً مطابق قرن قمری آنهاست (از عدد تاریخ تولد برای دسته‌بندی بر اساس قرن در صفحهٔ اول گنجور و از زادگاه آنها برای نقشهٔ گنجور استفاده می‌شود).

ویرایش سخنور در گنجور

۳. اگر برای چهرهٔ شاعر تصویری در دسترس نباشد تصویری با هوش مصنوعی درست می‌کنم و بعد آن را مطابق یک قالب از پیش آماده برش می‌دهم.

قالب تصویر

این اندازه را با نامی مطابق شناسهٔ شاعر در گنجور (id که یک عدد صحیح است) و با پسوند png ذخیره می‌کنم. این فایل را بعداً در مسیر فایلهای قابل دریافت گنجور رومیزی کپی می‌کنم تا داخل فایل قابل دریافت گنجانده شود. نسخهٔ کوچکتر آن را با ابعاد ۸۲ در ۱۰۰ پیکسل با قالب gif برای سخنور در گنجور بارگذاری می‌کنم. معمولاً اصل عکس منبع را در تصاویر چهرهٔ شاعر بارگذاری می‌کنم.

۴. مجموعهٔ گنجور رومیزی را بارگذاری می‌کنم. بعد از بارگذاری به صفحات بخش‌های ایجاد شده سر می‌زنم و با توجه به قالب بخش مشخص می‌کنم که چجور فهرستی (الفبایی با مصرع اول یا دوم یا بیت اول یا فقط عنوان یا عنوان به صورت غیرالفبایی یا …) داشته باشد. صفحات گنجور می‌بایست عناوین یکتا داشته باشند. بنابراین با ابزارهای گنجور به عناوین در صورت نیاز پیشوند شماره یا شماره بخش را اضافه می‌کنم.

ویرایش بخش

وزن‌یابی (اگر کل یک منظومه بر یک وزن نباشد) با استفاده از سرود انجام می‌شود. بعضی از فرایندهای دیگر مثل شمارش واژگان و ساخت آمارها و مانند آن برای هر بخش جداگانه و به صورت دستی شروع می‌شود. نام ارسال‌کننده را در منبع دیجیتال می‌گنجانم.

منبع دیجیتال بخش

برای در دسترس قرار گرفتن سخنور از طریق صفحهٔ اول باید در صفحهٔ سخنوران «گروه‌بندی بر اساس قرن» را بزنم.

۵. اگر بتوانم منبع چاپی مجموعه را پیدا کنم، اگر در نسکبان نباشد آن را بارگذاری و OCR می‌کنم. اگر تعداد صفحات آن کم باشد متن را به شکل دستی با نسکبان همگام می‌کنم اگر نه سعی می‌کنم با همگامساز خودکار نسکبان آن را همگام کنم که در اغلب موارد خروجی نهایی مطلوب نیست.

همگامساز نسکبان

۶. مجموعه‌های قابل دریافت توسط گنجور رومیزی را با تولید مجدد این فایل‌ها که حالا شامل مجموعهٔ جدید می‌شود بازسازی می‌کنم و بعد فایل‌های epub کتابخانهٔ گنجور را بازسازی و بارگذاری می‌کنم.

GDB => epub

۷. انجام این کارها چند ساعت تا گاهی یکی دو روز (با توجه به مشغله‌های دیگر) طول می‌کشد (در این ایام با اینترنت نیم‌سوز ایران بعضاً تکمیل این کارها به دلیل عدم دسترسی خودم به گنجور یا عدم دسترسی سرور گنجور به سرور ایران برای کپی فایل‌های قابل دریافت برای کاربران در این زمان هم ممکن نمی‌شود). بعد از این کارها تلاش می‌کنم وقت بگذارم و نوشته‌ای در تازه‌های گنجور دربارهٔ مجموعهٔ جدید بنویسم و آن را در شبکه‌های اجتماعی گنجور بازنشر کنم. معمولاً آماده کردن چنین نوشته‌ای نصف روز دیگر هم وقت می‌گیرد. در کنار اینها ابزارهای این فرایند حاصل سالها کار در اوقات فراغت هستند که انجام آن را ممکن کرده‌اند و با این حال در بعضی مراحل هنوز مجبورم بعضی کارها را با مراجعه به ابزارهای سطح پایین مثل ویرایش مستقیم پایگاه داده‌ها یا کپی مستقیم فایلها از طریق ftp نهایی کنم. خودکار کردن فرایندهای دستی و تغییر ابزارها به نحوی که دوستان دیگر بتوانند در این فرایندها مشارکت کنند از برنامه‌های گذشتهٔ من بوده که مطمئن نیستم فرصت و انگیزهٔ کافی برای انجام آن به این زودی‌ها فراهم شود.

یک دیدگاه دربارهٔ «فرایند انتشار مجموعه‌های جدید در گنجور»

  1. محمد حکیمی

    کاریست بس ارزشمند و بی نظیر. خواندن لیست کارهای خرد و درشتی که به صورت دستی انجام می‌دهید تا یک مجموعه جدید منتشر شود جالب، عجیب و تفکر برانگیز بود. کارهایی که هر یک شاید ساده باشند ولی در کنار هم چنین امکانی را فراهم آورده‌اند و مهمتر از همه این ها، حضور شخض شماست که این امر را ممکن کرده است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش جفنگ استفاده می‌کند. درباره چگونگی پردازش داده‌های دیدگاه خود بیشتر بدانید.