بایگانی ماه ژوئن، 2024

بسامد واژگان در گنجور

چهارشنبه، ژوئن 26th، 2024

در شاهنامه چند بار از ایران نام برده شده؟ پرکاربردترین کلمه غیر از حروف ربط و افعال پرکاربرد در رباعیات خیام کدام کلمه است؟ در غزلیات سعدی بیشتر از واژهٔ «دلبر» استفاده شده است یا از واژهٔ «معشوق»؟ به نسبت حجم کل، درصد کاربرد کلمهٔ «عشق» در غزلیات شمس بیشتر است یا در غزلیات حافظ؟

«بسامد واژگان» در فهرست‌های بخش‌های گنجور برای پاسخگویی به این دسته سؤالات ایجاد شده است. البته کلمات بر اساس شکل آنها شمارش شده‌اند و از این جهت «می» استمرار در کلمهٔ «می‌رود» با «می» به معنی شراب یک کلمه در نظر گرفته شده‌اند. کلمات شمارش شده نیز لزوماً یک کلمه نیستند و بر حسب این که با چه رسم‌الخطی در گنجور نوشته شده باشند ممکن است قسمتی از یک کلمهٔ کامل (مثالش همان «می» در «می‌رود») یا ترکیب چند کلمه باشد مثل «دیگرست» که چون فاصله‌ای بین «دیگر» و «است» وجود نداشته یک کلمه محسوب شده. در جداسازی کلمات نیز فعلاً ترجیح داده‌ایم نیم‌فاصله را نیز مانند فاصله به عنوان جداساز کلمات در نظر بگیریم.

با وجود ایرادات یاد شده می‌توان با استفاده از این ابزار، تقریبی از پاسخ‌های احتمالی برای پرسش‌های طرح شدهٔ ابتدایی را به دست آورد.

لغزش به بخش بسامد واژگان
ایران در شاهنامه
بسامد واژگان حافظ

شمارش کلمات فرایندی زمان‌بر است و تا پوشش همهٔ گنجور چند روزی طول خواهد کشید. در بخش‌هایی که کار شمارش کلماتشان تمام شده قسمتی به نام «بسامد واژگان» ظاهر می‌شود که به طور پیش‌فرض ۱۰۰ واژهٔ پربسامد آن بخش را به ترتیب نزولی بسامد نمایش می‌دهد. با تایپ کلمهٔ مورد نظر خود در کادر «جستجوی واژه» می‌توانید بسامد، ردیف آن در فهرست این واژه‌ها، تعداد و درصد تعداد آن به نسبت تعداد کل واژه‌ها را مشاهده کنید. عدد «ردیف» واژه‌ها لزوماً نمایانگر ترتیب از لحاظ بسامد نیست و تنها نمایانگر آن است که اگر فهرست صدواژهٔ ابتدایی تا واژهٔ جستجو شده ادامه پیدا می‌کرد در شماره ردیف آن چه عددی نوشته می‌شد.

با کلیک یا لمس لینک متناظر هر واژه می‌توانید آن را در بخش جاری جستجو کنید.

آمار منابع دیجیتال گنجور

جمعه، ژوئن 21st، 2024

بخش عمدهٔ محتوای گنجور از نرم‌افزارها و وبگاه‌های دیگر وارد شده است و در این زمینه علاقمندان ادبیات مدیون بزرگوارانی هستند که پیش و بیش از گنجور روی دیجیتالی کردن میراث ادب ایران‌زمین سرمایه‌گذاری کرده‌اند.

منبع اولیه دیجیتال هر شعر در کادر اطلاعات داخل آن مشخص شده است.

منبع اولیه

البته در طول زمان و به همت کاربران و همراهان گنجور متون وارد شده تکمیل یا تصحیح شده و تغییر کرده‌اند و لزوماً دیگر با منبع اولیه همخوانی ندارند. پیشتر در صفحهٔ منابع گنجور فهرستی ثابت از این منابع را نگهداری می‌کردیم که با فواصل طولانی تکمیل می‌شد.

برچسب‌های منابع دیجیتال گنجور را تکمیل کردیم و هم‌اکنون همهٔ شعرها دارای برچسب منبع اولیه هستند. منابع را به سه دسته (۱. نرم‌افزارها و وبگاه‌های دیگر، ۲.همراهان گنجور و ۳.پروژهٔ بازبینی OCR) تقسیم کردیم و علاوه بر یک آمار دسته‌بندی شده بر این اساس، آمار ریز ورودی از منابع را شامل نام عزیزانی که به شکل فردی یا تیمی مجموعه‌های حجیمی را برای گنجور تایپ کرده بودند در دسترس گذاشتیم.

صفحهٔ منابع

آمار کنونی فقط پوشش‌دهندهٔ بخش منظوم گنجور است. امیدواریم در آینده آماری معادل را که پوشش‌دهندهٔ بخش منثور و در نهایت همهٔ متون در دسترس از طریق گنجور باشد اضافه کنیم.