دوستان بر طبق راهنمایی که ۱۵ سال پیش (!) نوشتهام (اینجا) همت میکنند و مجموعههای جدیدی را برایم ارسال میکنند. به نظرم رسید که فرایند انتشار این مجموعهها را (آن دستهای را که روی سایت گنجور منتشر میشوند و نه آنهایی را که به دلیل معاصر بودن سخنور فقط از طریق گنجور رومیزی در دسترس قرار میگیرند) مستند کنم تا هم در آینده راهنما و مرجعی برای خود فراموشکارم باشد هم مستند و منبع شاید قابل استفادهای برای دوستان در آینده.
۱. اولین کاری که من در مورد این مجموعهها میکنم آن است که آنها را با گنجور رومیزی باز کنم و ایرادات ساختاری و فنی آنها را برطرف کنم و آنها را مرتب کنم. برای این کار نسخههای متعددی از گنجور رومیزی را روی کامپیوترم دارم که در فایل ganjoor.ini هر کدام مسیر پایگاه دادههای مجزایی برای آنها تعیین کردهام (توضیح بیشتر).
معمولاً نام فایل gdb ارسالی را به ganjoor.s3db تغییر میدهم و آن را جایگزین فایل موجود میکنم و گنجور رومیزی را از آن مسیر باز میکنم.
فهرست کارهایی که میکنم معمولاً شامل اینهاست:
- خیلی وقتها بخشبندی مجموعهٔ ارسالی نامنظم است. از طریق زیرمنوهای «بخش جدید» در ویرایشگر یعنی «تغییر ترتیب اشعار بخش» و «تغییر ترتیب زیربخشها» اشعار و بخشها را منتقل و مرتب میکنم.
- با ابزارهای «محاسبهٔ حروف قافیه» و «بیقافیهٔ بعدی» در پنجرهٔ «تغییر ترتیب اشعار بخش» میتوانم بعضی غلطهای تایپی یا ساختاری اشعار را پیدا کنم. مثلاً برای غزلها و قصیدهها پیدا نشدن قافیهٔ شعر به معنای غلط تایپی در جایگاه قافیه است یا ممکن است شعر در اصل قالب دیگری داشته باشد (در منوی «ابزارها»ی ویرایشگر «اشکالیاب قافیه» میتواند به پیدا کردن ایراد در اشعار طولانی کمک کند. ویرایشگر امکان چندبندی کردن اشعار و تغییر نوع مصاریع را میدهد.
- انتظار میرود بلوکهای پاراگراف متنی برای متون منثور شامل enter نباشند. از منوی «ابزارها» برای رفع این ایراد استفاده میکنم. انتظار میرود که متون منثور حتیالامکان در بخشهای کوتاه در دسترس قرار گیرند. گاهی متون طولانی را با استفاده از ابزارهای ویرایشگر میشکنم. گاهی متون اضافه شده توسط گردآورنده یا مصحح به عنوان بخشی از متن (پاراگراف نثر) در دسترس قرار گرفتهاند. نوع این موارد را به «توضیح» تغییر میدهم (اگر متن حجیم نباشد و من حوصله و وقت داشته باشم).
- در گنجور تلاش میکنیم که هر شعر مستقل حتیالامکان نشانی جداگانه داشته باشد. گاهی در مجموعههای دریافتی کل رباعیات یا تکبیتهای یک دیوان درقالب یک شعر تایپ شدهاند. با فرمانهای منوی «ابزارها»ی ویرایشگر آنها را میشکنم.
- بعضی اشکالات ساختاری اشکال فنی محسوب میشوند و ساختار صفحات را به هم میریزند. مثلاً هر «مصرع دوم»ی (مصرع سمت چپ در شعرهایی که دوستونی تایپ میشوند) حتماً باید مصرع اولی داشته باشد. این ایرادات را باز با همان منوی ابزارهای ویرایشگر پیدا و رفع میکنم.
- یکی از اولویتهای گنجور «جستجوپذیری» است. جستجوپذیری با یکدست کردن متون بالا میرود. مثلاً در متون تایپ شدهٔ فارسی گاهی به دلیل آن که متن با ابزارهای قدیمیتر تایپ شده به جای «ی» استاندارد «ي» عربی با زیردونقطه استفاده شده یا از کاف عربی استفاده شده یا به جای «هٔ» از «ة» استفاده شده یا در متون بخشی از متن نقل قول شده به جای محصور شدن در گیومه در علامت نقل قول انگلیسی محصور شده یا در متن از اعداد انگلیسی استفاده شده. با «جایگزینی در پایگاه دادهها» در منوی ابزارها این مشکلات را حل میکنم (نکتهٔ مهم: این کار گاهی برای بعضی متون مثل تفسیرهای قرآن که متون واقعاً عربی دارند مشکلآفرین است. متأسفانه فعلاً راهکاری برای جلوگیری از لطمه به متون اصیل عربی در این جایگزینیها نداریم، شاید پشتیبانی گنجور رومیزی از برچسب زبان برای بلوکهای متنی این مسئله را حل کند ولی بعید میدانم در آینده انرژی و انگیزهٔ کافی برای اینجور کارها در گنجور رومیزی پیدا کنم).
- در گذشته با همان ابزارهای ویرایشگر شعرهای هر بخش را بر اساس قافیه مرتب میکردم. بعداً که درگیر فهرستگذاری متون با منابع چاپی (به شکل دستی و نه خودکار) شدم دیدم که ایجاد تناقض در ترتیب متن با منبع چاپی چقدر کار تطبیق را سخت میکند. ضمن آن که پیشتر هم مثلاً در مورد دیوان ملکالشعرای بهار که اشعار با ترتیب تاریخی مرتب شدهاند دیده بودم که این کار در بعضی آثار اطلاعات بامعنایی را از بین میبرد. در گذشته مرتبکردن بر اساس حروف قافیه در کتابهای چاپی پیدا کردن اشعار را آسان میکرد اما در منابع دیجیتال با وجود ابزارهای جستجو چنین کاری به اندازهٔ قدیم مفید نیست و به خاطر از بین بردن اطلاعات بامعنی که نمونهاش را ذکر کردم مضر هم هست. در انتشار مجموعههای جدید این کار را نمیکنم.
- در مورد بخشهایی از مجموعههای ارسالی که عناوین معنیدار نیستند و ترتیبی هستند (شمارهٔ ۱، شمارهٔ ۲ یا …) با ابزارهای ویرایشگر گنجور رومیزی این عناوین را مجدداً تولید میکنم. گاهی این کار اشکالهایی را مثل جا افتادن شعرها یا … را آشکار میکند.
- در گنجور بخشها و شاعران و اشعار نامکهای لاتین دارند (مثل hafez، divan و sh1). این نامکها کمک میکنند که نشانی یک بخش ساده، کوتاه و قابل پیشبینی باشد و بتوان بدون مرور سلسلهمراتبی صفحات به یک شعر خاص رسید. برای بعضی عناوین متداول بخشها مثل قصاید و غزلیات در کد گنجور نامکهای لاتین ثابتی وجود دارد. برای غیرمتداولها الگوریتمی برای تولید نامک لاتین وجود دارد که سعی میکنم به آن اتکا نکنم و نامک لاتین مد نظر خودم را با کاراکتر جداکنندهٔ | به انتهای عنوان بخش اضافه کنم. گنجور عنوان را بر اساس این جدا کننده دو بخش میکند و بخش دوم را به عنوان نامک لاتین استفاده میکند.
پس از تکمیل آمادهسازی مجموعه از گنجور رومیزی خروجی میگیرم.
۲. در گنجور رکورد اطلاعاتی سخنور جدید را ایجاد میکنم. در امکانات مدیریتی گنجور این امکان در بخش «سخنوران» در دسترس است. در بیشتر موارد زندگینامه یا شرح احوال شاعر ارسال نمیشود. سعی میکنم با کپی از اولین منبع دم دستی مثل ویکیپدیا و زودن اضافات یک زندگینامهٔ اولیه برای شاعر آماده کنم. در زندگینامهٔ شاعر نام کسی که اثر را برایم فرستاده میگنجانم (مگر این که خود او صریحاً خواسته باشد که نامش عنوان نشود). سال تولد و وفات سخنور را به هجری قمری وارد میکنم چون عموماً برای شاعران کهن معادل شمسی آنها به شکل آماده در دسترس نبوده و قرن زندگی سخنوران عموماً مطابق قرن قمری آنهاست (از عدد تاریخ تولد برای دستهبندی بر اساس قرن در صفحهٔ اول گنجور و از زادگاه آنها برای نقشهٔ گنجور استفاده میشود).
۳. اگر برای چهرهٔ شاعر تصویری در دسترس نباشد تصویری با هوش مصنوعی درست میکنم و بعد آن را مطابق یک قالب از پیش آماده برش میدهم.
این اندازه را با نامی مطابق شناسهٔ شاعر در گنجور (id که یک عدد صحیح است) و با پسوند png ذخیره میکنم. این فایل را بعداً در مسیر فایلهای قابل دریافت گنجور رومیزی کپی میکنم تا داخل فایل قابل دریافت گنجانده شود. نسخهٔ کوچکتر آن را با ابعاد ۸۲ در ۱۰۰ پیکسل با قالب gif برای سخنور در گنجور بارگذاری میکنم. معمولاً اصل عکس منبع را در تصاویر چهرهٔ شاعر بارگذاری میکنم.
۴. مجموعهٔ گنجور رومیزی را بارگذاری میکنم. بعد از بارگذاری به صفحات بخشهای ایجاد شده سر میزنم و با توجه به قالب بخش مشخص میکنم که چجور فهرستی (الفبایی با مصرع اول یا دوم یا بیت اول یا فقط عنوان یا عنوان به صورت غیرالفبایی یا …) داشته باشد. صفحات گنجور میبایست عناوین یکتا داشته باشند. بنابراین با ابزارهای گنجور به عناوین در صورت نیاز پیشوند شماره یا شماره بخش را اضافه میکنم.
وزنیابی (اگر کل یک منظومه بر یک وزن نباشد) با استفاده از سرود انجام میشود. بعضی از فرایندهای دیگر مثل شمارش واژگان و ساخت آمارها و مانند آن برای هر بخش جداگانه و به صورت دستی شروع میشود. نام ارسالکننده را در منبع دیجیتال میگنجانم.
برای در دسترس قرار گرفتن سخنور از طریق صفحهٔ اول باید در صفحهٔ سخنوران «گروهبندی بر اساس قرن» را بزنم.
۵. اگر بتوانم منبع چاپی مجموعه را پیدا کنم، اگر در نسکبان نباشد آن را بارگذاری و OCR میکنم. اگر تعداد صفحات آن کم باشد متن را به شکل دستی با نسکبان همگام میکنم اگر نه سعی میکنم با همگامساز خودکار نسکبان آن را همگام کنم که در اغلب موارد خروجی نهایی مطلوب نیست.

۶. مجموعههای قابل دریافت توسط گنجور رومیزی را با تولید مجدد این فایلها که حالا شامل مجموعهٔ جدید میشود بازسازی میکنم و بعد فایلهای epub کتابخانهٔ گنجور را بازسازی و بارگذاری میکنم.
۷. انجام این کارها چند ساعت تا گاهی یکی دو روز (با توجه به مشغلههای دیگر) طول میکشد (در این ایام با اینترنت نیمسوز ایران بعضاً تکمیل این کارها به دلیل عدم دسترسی خودم به گنجور یا عدم دسترسی سرور گنجور به سرور ایران برای کپی فایلهای قابل دریافت برای کاربران در این زمان هم ممکن نمیشود). بعد از این کارها تلاش میکنم وقت بگذارم و نوشتهای در تازههای گنجور دربارهٔ مجموعهٔ جدید بنویسم و آن را در شبکههای اجتماعی گنجور بازنشر کنم. معمولاً آماده کردن چنین نوشتهای نصف روز دیگر هم وقت میگیرد. در کنار اینها ابزارهای این فرایند حاصل سالها کار در اوقات فراغت هستند که انجام آن را ممکن کردهاند و با این حال در بعضی مراحل هنوز مجبورم بعضی کارها را با مراجعه به ابزارهای سطح پایین مثل ویرایش مستقیم پایگاه دادهها یا کپی مستقیم فایلها از طریق ftp نهایی کنم. خودکار کردن فرایندهای دستی و تغییر ابزارها به نحوی که دوستان دیگر بتوانند در این فرایندها مشارکت کنند از برنامههای گذشتهٔ من بوده که مطمئن نیستم فرصت و انگیزهٔ کافی برای انجام آن به این زودیها فراهم شود.





















