بایگانی دسته: گنجور

گنجور تاجیکی، نسخهٔ آزمایشی

تاجیکستان علی‌رغم مردم فارسی‌زبانش مخاطبان زیادی در گنجور ندارد و این البته به نظر می‌رسد ناشی از تفاوتی است که خط سیریلیک ایجاد کرده باشد.

سالها پیش در گنجور قابلیتی ایجاد کردم که برای مخاطبان با زبان مرورگر تاجیکی نسخهٔ ترجمهٔ گوگل از فارسی به خط تاجیکی را نمایش بدهیم. این قابلیت تأثیر قابل مشاهده‌ای روی وضعیت مخاطبان تاجیکستانی گنجور نگذاشت و بعدتر به دلیل مسائل فنی ناخواسته‌ای که ایجاد کرد آن قابلیت را حذف کردم.

چندی پیش در مصاحبه‌های مربوط به کتاب گنجور: قدرت بی‌نهایت کوچک‌ها و در بحث مخاطبان گنجور در مناطق مختلف جهان مهدی سلیمانیهٔ عزیز در این مورد پرسید و من را دوباره به یاد این مسئله انداخت.

علت آن که نسخهٔ ترجمهٔ گوگل گنجور مخاطب پیدا نمی‌کند می‌تواند آن باشد که عمدهٔ ورودی‌ها و آشنایی اولیهٔ مخاطبان از راه خود گوگل و موتورهای جستجوست و چون نسخهٔ ترجمهٔ گوگل در نتایج جستجو ظاهر نمی‌شود مخاطب، گنجور را نمی‌یابد.

از این جهت به نظرم رسید با ایجاد یک سایت مستقل برای مخاطبان خط تاجیکی می‌توانیم مسئلهٔ کشف‌پذیر بودن گنجور را حل کنیم.

با این اوصاف به کمک کار بزرگی که سالهاست به همت آقای جلال حجتی فهیم و در قالب پروژهٔ پرشین تاجیک انجام شده نسخهٔ اولیه‌ای از برگردان اشعار گنجور به خط تاجیکی را برای چهار شاعر (حافظ، خیام، فردوسی و مولانا) در دسترس گذاشته‌ایم.

از آنجا که در خط تاجیکی کسرهٔ اضافه بر خلاف خط فارسی همه جا نوشته می‌شود لزوماً خروجی فعلی ایده‌آل نیست. اما شروعی است برای بهبودهای آینده. امیدواریم به زودی به اضافه کردن امکاناتی چون جستجو، خوانش اشعار و نهایتاً ویرایشگر برای تصحیح اشکالات خط تاجیکی راه را برای استفادهٔ بیشتر و بهتر همزبانان تاجیک فراهم کنیم.

نسخهٔ فعلی امکان مرور سلسله‌مراتبی آثار (نوار ناوبری بالا)، مشاهدهٔ شعر یا بخش بعد و مشاهدهٔ برگردان گوگل از نسخهٔ کامل صفحهٔ متناظر در گنجور را فراهم می‌آورد.

با وجود آن که سرویس ترجمهٔ گوگل کاری بیش از نویسه‌گردانی می‌کند و کلمات را با معادلهای آنها جایگزین می‌کند می‌تواند ابزار کمکی خوبی جهت دسترسی مخاطبان تاجیکی به منابع بیشتر باشد. از این جهت روی قسمتی از اشکالاتی که در نسخهٔ ترجمهٔ گوگل گنجور دیده می‌شد کار شده و اکنون در این نسخه بیشتر آیکون‌ها و نمادهای تصویری به درستی نمایش داده می‌شوند.

ترجمهٔ گوگل از فارسی به تاجیکی

لطفاً به دوستان تاجیک خود نسخهٔ تاجیکی گنجور را به نشانی tj.ganjoor.net معرفی کنید و اگر بازخورد و پیشنهادی در این زمینه داشتند آنها را ذیل همین نوشته منعکس بفرمایید.

امیدواریم به زودی همهٔ گنجور را در این نسخه پوشش دهیم و امکانات لازم برای ویرایش و بهبود توسط خود تاجیک‌ها را ارائه کنیم.

شمار و بسیاری واژگان یک شعر

در کنار آمارهای بسامد واژگان برای کل گنجور و هر سخنور و بخش امکان شمارش تعداد و فراوانی کلمات یک شعر نیز به بخش اطلاعات آن افزوده شده است که ممکن است به طور موردی به کار پژوهشگران بیاید. تصاویر زیر گویای روش دسترسی به و نحوهٔ استفاده از این قابلیت هستند.

بخش اطلاعات شعر
برای مشاهدهٔ بسامد واژگان اینجا کلیک کنید.
بسامد واژگان شعر

پایان سرشماری بسامد واژه‌های گنجور

کار سرشماری بسامد واژگان گنجور پایان یافته و دستاورد پایانی در پایین این برگه در دسترس است:

بسامد واژگان در آمار شعرهای گنجور

از آنجا که بیشترین بسامد از آن حروف ربط و واژگان کم‌تأثیر است برای کاهش نویز و واضح‌تر شدن اطلاعات معنی‌دار امکان حذف واژگان «کم‌هوادار» از آمار صد واژهٔ ابتدایی کلی یا همهٔ بخش‌ها اضافه شده است. این واژگان را از میان دویست واژهٔ پربسامد کلی انتخاب کرده‌ایم.

بسامد واژگان در گنجور

در شاهنامه چند بار از ایران نام برده شده؟ پرکاربردترین کلمه غیر از حروف ربط و افعال پرکاربرد در رباعیات خیام کدام کلمه است؟ در غزلیات سعدی بیشتر از واژهٔ «دلبر» استفاده شده است یا از واژهٔ «معشوق»؟ به نسبت حجم کل، درصد کاربرد کلمهٔ «عشق» در غزلیات شمس بیشتر است یا در غزلیات حافظ؟

«بسامد واژگان» در فهرست‌های بخش‌های گنجور برای پاسخگویی به این دسته سؤالات ایجاد شده است. البته کلمات بر اساس شکل آنها شمارش شده‌اند و از این جهت «می» استمرار در کلمهٔ «می‌رود» با «می» به معنی شراب یک کلمه در نظر گرفته شده‌اند. کلمات شمارش شده نیز لزوماً یک کلمه نیستند و بر حسب این که با چه رسم‌الخطی در گنجور نوشته شده باشند ممکن است قسمتی از یک کلمهٔ کامل (مثالش همان «می» در «می‌رود») یا ترکیب چند کلمه باشد مثل «دیگرست» که چون فاصله‌ای بین «دیگر» و «است» وجود نداشته یک کلمه محسوب شده. در جداسازی کلمات نیز فعلاً ترجیح داده‌ایم نیم‌فاصله را نیز مانند فاصله به عنوان جداساز کلمات در نظر بگیریم.

با وجود ایرادات یاد شده می‌توان با استفاده از این ابزار، تقریبی از پاسخ‌های احتمالی برای پرسش‌های طرح شدهٔ ابتدایی را به دست آورد.

لغزش به بخش بسامد واژگان
ایران در شاهنامه
بسامد واژگان حافظ

شمارش کلمات فرایندی زمان‌بر است و تا پوشش همهٔ گنجور چند روزی طول خواهد کشید. در بخش‌هایی که کار شمارش کلماتشان تمام شده قسمتی به نام «بسامد واژگان» ظاهر می‌شود که به طور پیش‌فرض ۱۰۰ واژهٔ پربسامد آن بخش را به ترتیب نزولی بسامد نمایش می‌دهد. با تایپ کلمهٔ مورد نظر خود در کادر «جستجوی واژه» می‌توانید بسامد، ردیف آن در فهرست این واژه‌ها، تعداد و درصد تعداد آن به نسبت تعداد کل واژه‌ها را مشاهده کنید. عدد «ردیف» واژه‌ها لزوماً نمایانگر ترتیب از لحاظ بسامد نیست و تنها نمایانگر آن است که اگر فهرست صدواژهٔ ابتدایی تا واژهٔ جستجو شده ادامه پیدا می‌کرد در شماره ردیف آن چه عددی نوشته می‌شد.

با کلیک یا لمس لینک متناظر هر واژه می‌توانید آن را در بخش جاری جستجو کنید.

آمار منابع دیجیتال گنجور

بخش عمدهٔ محتوای گنجور از نرم‌افزارها و وبگاه‌های دیگر وارد شده است و در این زمینه علاقمندان ادبیات مدیون بزرگوارانی هستند که پیش و بیش از گنجور روی دیجیتالی کردن میراث ادب ایران‌زمین سرمایه‌گذاری کرده‌اند.

منبع اولیه دیجیتال هر شعر در کادر اطلاعات داخل آن مشخص شده است.

منبع اولیه

البته در طول زمان و به همت کاربران و همراهان گنجور متون وارد شده تکمیل یا تصحیح شده و تغییر کرده‌اند و لزوماً دیگر با منبع اولیه همخوانی ندارند. پیشتر در صفحهٔ منابع گنجور فهرستی ثابت از این منابع را نگهداری می‌کردیم که با فواصل طولانی تکمیل می‌شد.

برچسب‌های منابع دیجیتال گنجور را تکمیل کردیم و هم‌اکنون همهٔ شعرها دارای برچسب منبع اولیه هستند. منابع را به سه دسته (۱. نرم‌افزارها و وبگاه‌های دیگر، ۲.همراهان گنجور و ۳.پروژهٔ بازبینی OCR) تقسیم کردیم و علاوه بر یک آمار دسته‌بندی شده بر این اساس، آمار ریز ورودی از منابع را شامل نام عزیزانی که به شکل فردی یا تیمی مجموعه‌های حجیمی را برای گنجور تایپ کرده بودند در دسترس گذاشتیم.

صفحهٔ منابع

آمار کنونی فقط پوشش‌دهندهٔ بخش منظوم گنجور است. امیدواریم در آینده آماری معادل را که پوشش‌دهندهٔ بخش منثور و در نهایت همهٔ متون در دسترس از طریق گنجور باشد اضافه کنیم.

پایان کار فهرست‌گذاری خودکار متون گنجور بر اساس نسکبان

این فرایند هم‌اکنون به پایان رسیده است. در پایان این فرایند هم‌اکنون اشعار گنجور بر اساس ۳۹۵ کتاب PDF در دسترس از طریق نسکبان فهرست‌گذاری شده‌اند.

منابع کاغذی آثار هر سخنور (شامل منابع در دسترس از طریق نسکبان و گنجینهٔ گنجور) نیز ذیل صفحهٔ خود آن سخنور فهرست شده است:

منابع کاغذی حافقظ

سرور نسکبان ارتقا و بهبود پیدا کرده و امیدوارم به زودی بتوانم روی بهبود کارایی جستجو در آن وقت بگذارم. فرایند تطبیق متن کتابهای نسکبان با گنجور هنوز ایده‌آل نیست و جای کار دارد. منتهی وضعیت فعلی هم به لحاظ مستند کردن بخش قابل توجهی از متون گنجور گام بزرگ و مهمی محسوب می‌شود.

بهبود نمایش نقل قول‌های احتمالی و تغییرات دیگر در صفحات سخنوران

در صفحات معرفی شاعران، بخش نقل قول‌های احتمالی آنان از دیگران و دیگران از آنان برای شاعرانی که با تعداد زیادی از شاعران دیگر ارتباط داشتند باعث شلوغی صفحاتشان شده بود. لینک به این صفحات را از حالت قبلی خارج کردم و آنها را در یک کادر (به طور پیش‌فرض بسته شده) به اسم «مشق شعر» تجمیع کردم. لینک‌ها نیز با تصاویر شاعران جایگزین شده‌اند.

مشق شعر سعدی

بخش «آمار» نیز به طور پیش‌فرض بسته شده است تا کسانی که نیاز به مشاهدهٔ اطلاعات آن دارند آن را باز کنند و از شلوغی صفحه کاسته شود.

دکمهٔ آمار

به جای لینک ساده به صفحات پیشنهاد تصاویر شاعران نیز اولین تصویر پیشنهاد شده در صورت وجود نمایش داده می‌شود. این تصویر برای مواردی که تصویر چهرهٔ گنجور از طراحی مشخصی برداشته شده باشد همان تصویر مرجع است.

پیشنهاد تصویر چهره

فهرست‌گذاری خودکار متون گنجور بر اساس مراجع در دسترس از طریق نسکبان – در جریان …

مجمل (اگر حوصله ندارید پاراگراف‌های بعد را بخوانید): در روزهای اخیر پای خیلی از اشعار گنجور می‌توانید تصاویر مراجع چاپی آنها را مشاهده کنید. اگر لزوماً تصویر معرفی شده به عنوان «منبع کاغذی گنجور» با متن شعر همخوانی ندارد نگران نباشید این یک فرایند خودکار در حال تکمیل است که امید است در صورت فراهم شدن پایداری حداقلی در ارتباط اینترنتی داخل ایران زودتر به ثمر برسد و نتایج دقیق‌تر شود.

تصاویر منابع کاغذی گنجور در نسکبان

حدیث مفصّل: یکی از مهم‌ترین اهداف پشت ایجاد نسکبان لینک کردن متون گنجور با منابع کاغذی آن بوده است. فرایندی که با توجه به حجم و تنوع بالای متون گنجور انجام آن به شکل دستی محتاج سال‌ها کار نیروی انسانی است. این کار از این جهت لازم و ضروری است که:

  • بتوانیم با مراجعه به متن چاپی متوجه شویم کلمات مشکوک به ایراد تایپی در گنجور آیا واقعاً ایراد تایپی هستند یا با توجه به مرجع چاپی درستند.
  • از جانب دیگر برای پژوهشگران امکان این را فراهم می‌آوریم که بتوانند در آثارشان به صفحات کاغذی کتاب‌ها ارجاع بدهند.
  • در کل هم، وجود تصویر مرجع چاپی می‌تواند شائبه‌های دستکاری متن در گنجور را کاهش دهد و اعتمادپذیری آن را بالا ببرد.

خوشبختانه این که متن کتاب‌های نسکبان OCR شده و با توجه به دقت نه چندان بالا اما معقول این فرایند به طور حدودی می‌توانیم از متن معادل آنها در گنجور مطلع شویم راهکاری را برای فهرست‌گذاری خودکار متن گنجور بر اساس کتاب‌های نسکبان در اختیار ما می‌گذارد.

بر این اساس، با تعیین این که مرجع احتمالی متن هر بخش گنجور کدام کتاب نسکبان است می‌توانیم با مقایسهٔ الگوریتمی متن گنجور با متن صفحات کتاب جای آن را در کتاب پیدا کنیم و آنها را با هم لینک کنیم.

الگوریتمی که برای انجام این کار طراحی شده به این صورت است که برای هر شعر از آغاز کتاب تا پایان آن صفحه به صفحه به اندازه‌ای معادل متن شعر یا بخش متن منثور در گنجور متن برمی‌داریم (به طور معمول برای اشعار کوتاه یک صفحه و برای اشعار طولانی مثل قصاید چند صفحه انتخاب می‌شود). سپس آمار می‌گیریم که چند کلمه از متن گنجور در متن نسکبان صفحات انتخاب شده یافت می‌شوند و نسبتِ تعداد کلمات موجود به کل کلمات را پیدا می‌کنیم. آستانه‌ای برای تعیین این که متن گنجور و نسکبان صفحات انتخاب شده مطابقت دارند در نظر می‌گیریم. مثلاً فرض می‌کنیم اگر ۷۰ درصد کلمات متن گنجور یافت شد این صفحات با هم مطابقت دارند. سپس مقایسه را تا پایان متن کتاب ادامه می‌دهیم تا اگر صفحه‌ای در کتاب نسکبان با درصد مطابقت بالاتر پیدا شد آن را به عنوان صفحهٔ معادل انتخاب کنیم. به این ترتیب در نهایت در صورت پیدا کردن صفحاتی با مطابقت بالاتر از آستانهٔ تعیین شده، صفحهٔ دارای بالاترین مطابقت را به عنوان صفحهٔ معادل متن گنجور انتخاب می‌کنیم. در نهایت با توجه به تأثیر صفحات خالی یا صفحات عنوان که می‌تواند باعث شود صفحه‌ای که در واقع با شعر گنجور مطابق است صفحه یا یکی از صفحات بعدی باشد و همینطور این که تک‌بیت‌ها و رباعی‌ها و اشعار کوتاه به لحاظ تعداد کلمات کمشان ممکن است با صفحات نامرتبط حاوی تمام کلماتشان تطبیق کنند فرایندهای الگوریتمی ساده‌ای برای حذف موارد نامرتبط نیز آماده کرده‌ایم تا تعداد موارد نامرتبط را کم کند.

الگورریتم مشابه‌یابی

در انتخاب این روش آزمایش و خطاهایی انجام شده، مثلاً ابتدا مقایسهٔ ترتیبی اشعار بخش و صفحات کتاب را امتحان کردیم که اگر چه برای بعضی از کتابها با سرعت خیلی بیشتری به نتیجه می‌رسید، برای بخشهایی از گنجور که کتاب مرجع ترتیب الفبایی نداشته و ما در گنجور اشعار را به ترتیب حروف قافیه مرتب کرده‌ایم کارایی ندارد. پیدا کردن اولین صفحه از کتاب با مطابقت بالاتر از آستانه و عدم بررسی صفحات بعدی نیز به خصوص برای اشعار کوتاه مانند رباعی‌ها که احتمال آن وجود دارد که بسیاری از کلماتشان در صفحات نامربوط کتاب پیدا شوند ایجاد مشکل می‌کند.

الگوریتم طراحی شده به دلیل بررسی کل متن کتاب بسیار زمان‌بر است اما در بررسی تصادفی به عمل آمده دقت قابل قبولی دارد و می‌توان با اختصاص منابع پردازشی به آن این نقیصه یعنی زمان‌بر بودنش را جبران کرد.

خودکارسازی این فرایند با حذف نیاز به نیروی انسانی می‌تواند در آینده امکان این را هم اضافه کند که علاوه بر چاپ‌های مرجع گنجور، متن شعر را در چاپ‌ها و تصحیح‌های دیگر نیز پیدا کنیم و آنها را با شعر لینک کنیم و در آینده بتوانیم متن شعر را در نسخه‌های بدل چاپی دیگر نیز در دسترس داشته باشیم و بررسی کنیم.

متأسفانه با توجه به این که سرور نسکبان در ایران قرار دارد و طی روزهای اخیر اختلالات همیشگی اینترنت ایران شدیدتر شده این که این فرایند چه زمانی تکمیل شود چندان در کنترل ما نیست (لازمهٔ پیشرفت این فرایند ارتباط پایدار سرور گنجور که در خارج از ایران قرار دارد با این سرور در داخل ایران است). تا کنون کتابهای مرتبط با اشعار تا حدود قرن هفتم مشخص شده و در صف پردازش قرار گرفته‌اند که پیش از شدت گرفتن این اختلالات با سرعت مناسبی در حال پردازش و تکمیل بوده‌اند.

بعد از پایان فرایند تطبیق متن کتابهای چاپی با متن گنجور مرحلهٔ دیگری را آغاز خواهیم کرد که بین چند نسخهٔ چاپی مرتبط با یک بخش در گنجور بخشی را که با احتمال بالا منبع کاغذی گنجور بوده با الگوریتم‌هایی مشابه همان الگوریتم‌های آماری که شرحشان آمد پیدا کنیم. تا آن زمان، اولین نسخهٔ چاپی پردازش شده به عنوان مرجع معرفی شده (تا دسترسی به آن از طریق ویرایشگر متن گنجور آسان باشد) اما در عمومِ موارد، لزوماً این موارد مرجع کاغذی گنجور نبوده‌اند.