پیشتر اشاره کرده بودم که قصد دارم به کمک OCR دامنهٔ دادههای موجود در گنجور را گسترش دهم و کار را هم با اضافه کردن کتاب کوچکی از سنایی غزنوی، قسمتی از غزلیات بیدل دهلوی و چند قصیده از قاآنی شروع کرده بودم.
قبلاً هم گفته بودم که اضافه کردن اشعار با استفاده از OCR، غیر از امکانات و زمانی که برای اسکن و اجرای پردازش OCR روی ورودیها و دریافت خروجی نیاز دارد نیاز به یک کار چشمی پر زحمت دارد تا دقت خروجیها به سطح قابل قبول برسد. گفته بودم که برنامهای دارم برای آن که علاقمندان گنجور را در این کار به همیاری دعوت کنم و با استفاده از مشارکت آنها سرعت و دقت گسترش دامنهٔ دادهها افزایش یابد.
الان، طرح سادهای آماده کردهام برای آن که به کمک آن این امر را محقق کنم. علاقمندان با مراجعه به این نشانی میتوانند با بازبینی خروجیهای OCR به گسترش دامنهٔ دادههای گنجور کمک کنند. سیستم طراحی شده بر اساس تعداد رأیهای کاربران به متون کار میکند و نهایتاً با غربال پررأیترین گزینهها خروجیها را تولید خواهم کرد. اگر اشتباه کردید: اشتباه تایپی یا انتخاب اشتباه، نگران نباشید! علاقمندان دیگر نیز خروجیها را میبینند و اشتباه شما را با رأیهایشان به متون درستتر تصحیح میکنند. فقط لطفاً در صورتی که صفحهکلید فارسی ندارید در این کار مشارکت نکنید! ورود متون به صورت فارگلیسی هیچ کمکی نمیکند.
فعلاً خروجیهای باقیماندهٔ جلد اول غزلیات بیدل دهلوی در این سیستم در دسترس قرار دارند و به زودی باقیماندهٔ دیوان قاآنی را نیز در این سیستم در معرض بازبینی علاقمندان قرار میدهم.
@میترا:
اعداد مشکلی نداره اگه لاتین باشه، در نهایت همشون با اعداد فارسی جایگزین میشن.
@رضا:
بهتره که فاصلهها رعایت بشه.
خیلی عالیست.
اگر نیاز به کمک در توسعه نرمافزاری هم داشتید در حد امکان کمک خواهم کرد.
با عرض سلام
و تقدیر از کار ارزنده سایت وزین گنجور که در این از هم گسیختگی فرهنگی که اکثر جوانان دارند با لغت فارسی بیگانه و به حروف اجانب فارسی مینگارند کاری بس بزرگ و درخور تقدیر انجام میدهد
دست مریزاد بر تمامی شما ایرانیان پاک اندیش و نیک کرداری که برای کاری به این عظمت و زیبایی تلاش میکنید .
به امید روزی که نام ایران و ایرانی آزاده بر تارک جهان بدرخشد.
سلام،
يه سؤال جزئي:
توي مصراعهاي مربوط به سري چهارم، بعضي از مصراعها هستند كه آخرشان يه عدد (مربوط به پانوشت) وجود داره. تا حالا در مصراعهايي كه بازبيني كردم و اين عدد آخر آنها وجود داشت، اين عدد رو حذف كردم.
ميخواستم نظر شما رو هم بدونم
اين مصراع هم بسيار جالب است!
http://v.ganjoor.net/images/view/107280
@علیرضا:
توی سیستم فعلی وقتی که قراره متن نهایی وارد سایت بشه تمام اعداد حذف میشن. لذا حذفشون مشکلی ایجاد نمیکنه بهتر هم هست.
اين اعداد ولي يه مسئلهي ديگه:
بعضي از تصاوير مربوط به خود پانوشتها هستند. (اين رو خودم بعد از نوشتن كامنت قبلي ديدم)
حذف شمارههاي آخر مصراعها يعني حذف پانوشتها. اكثر اين پانوشتها مربوط به معاني كلمات عجيب و غريب در متن شعره.
(الآن سؤال خاصي ندارم! جملهي بالايي بيشتر خبريه تا پرسشي!)
جواب خودم رو گرفتم!
الآن اين كامنت رو ديدم:
http://blog.ganjoor.net/1389/03/17/vganjoornet/comment-page-3/#comment-1392
احسنت به حسن کار و انجام شما
باخواست حق قرین بود کام شما
این گنج که گنجور نهادید به نام
خورشید شود درآید از شام شما
(امیر نامجو)
سلام
وظیفه هر ایرانی ، پارسی زبان یا غیر پارسی زبان ، انتشار زبان به تمامی شکرین پارسی به تمامی دنیاست.
پس بنده هم کمک خواهم کرد.
Hello. Thank you very much for your site. I will to be happy that I help to you . I am ready for help.
Alireza Haddadi Esfahani
دستتون واقعا درد نکنه. کار بسیار گران سنگی رو پایه نهادید. بسیار ارزشمند.
یک پیشنهاد: نمیدونم چرا در برخی از صفحات دو متن نمایش داده میشه که فقط یکی از اونها کلمات مصرع اسکن شده رو در بر میگیره. با در نظر گرفتن این مطلب که همه دوستانی که به کار بازبینی میپردازند، مصصحح نیستند. پیشنهاد میکنم با اسکن کردن اشعار از متقن ترین منابع، از این چندگانگی جلوگیری بشه. شاید هم بتوان با ذکر مرجع از هر دو مصرع استفاده کرد. البته خودم با این چندگانگی به شدت مخالفم. در صورت عدم موافقت با نظر اینجانب و تاکید بر تصحیح اشعار از سوی مراجعین به سایت، لطفا حداقل ابیات پس و پیش نیز نشان داده شود تا دقت انتخاب افزایش یابد.
با سپاس فراوان
سلام
منم اگه بتونم جتما كمك ميكنم
ممنون از سايت خوبتون
کاش یه معیار مشخص برای درج شماره اه و پاورقی ها قرار بدید که همه بر اساس اونها شماره هارو بنویسن
خیلی از ابیات و قطعات اسکن شده عدد پی نوشت دارند که ادم نمیدونه چطور بنویسه بهتره!
مثلا گاهی وسط یک بیت یا مصرع این شماره ها هست.
مثل این تصویر:
http://v.ganjoor.net/005/18150.jpg
در این لینک: http://v.ganjoor.net/images/view/110758
که هرکس یه طور نوشته و معیار مشخصی براش نیست.
از طرفی به نظرم چهره جالبی هم نداره وسط یک مصرع بیربط یه عدد بیاد:
غرمی (۱) رمنده بود مرا طبع و این شگفت
بنابراین کاش توضیح بدید و بگید اصلا لزومی داره اعدادی که برای پی نوشتها و پیوستها استفاده شده تو اصلاحات نوشته بشه یا نه؟ و اگه اره چطوری باشه بهتره و کمک میکنه؟
ممنون
@مونا:
اعداد و پرانتزهای میان شعرها به طور خودکار حذف میشوند بنابراین وارد کردن یا نکردن آنها تأثیری ندارد.
مدتهاست که در نظر دارم راهنمایی برای این گونه موارد آماده کنم که به دلایل مختلف امکانش فراهم نشده، از دوستان بابت این مطلب عذرخواهی میکنم.
آقا هستیم …
خوشحال میشم کمکتون کنم …
یه پیشنهاد
امکانش هست که چند دکمه برای کاراکتر هایی که زیاد استفاده میشن زیر باکس ویرایش قرار بدید .. ! چون وقتی لازم میشه کاراکتری رو از صفحه کلید بزنیم وقت زیادی تلف میشه
مثلا فاصله ،نیم فاصله، حرکه ها، ۀ ، همزه ها ..
لطفا فاصله ی تصویر رو با قسمت ویرایش نوشته ها تا اونجایی که امکان داره کم کنید تا سرعت کار بیشتر بشه
سلام. نمیدونم چرا هر دفعه که من صفحه بازبینی رو باز می کنم، اولین بیتی که میاد اینه “بگذار که پیش آیدش از بخت فتوری” دیگه حفظ شدم!
فکر می کنم بیشتر از ده بار تا بحال روی گزینه درست کلیک کردم، درحالیکه شما گفتید با سه تا رای جمله درست ثبت میشه.
راستی میتونم بپرسم دیوان بعدی چی خواهد بود؟
یه پیشنهاد هم دارم اینکه بعد از اینکه همه شعرهای مهم اضافه شد، به اضافه کردن نثرهای معروف مثل گلستان، مناجات نامه و … هم بپردازید.
متشکرم
@نرگس:
احتمالاً مشکل به کش اینترنت یا مرورگر شما مربوط میشه، نشانی شروع بهتره که این باشه:
http://v.ganjoor.net
گلستان الان در دسترسه.
شاعر بعدی (اسکن و OCR شده) امیرمعزی هستش ولی با توجه به مسائل پیش آمده -قضایای مهرارقام و فیلتر شدن سایت و حذف دادهها- شاید شاعر دیگهای برای ادامه کار انتخاب بشه.
از تمامی دوستانی که هنوز در این کار مشارکت میکنن سپاسگزاری میکنم.
بله. من با آدرس همون شعر بوکمارکش کرده بودم، حالا که تغییرش دادم دیگه درست شد.
ممنون
می خواستم پبشنهاد کنم اگه ممکنه امکانی به سایت اضافه بشه که نشون بده چند درصد از کتاب در حال اصلاح کامل شده. این طوری شاید هم برای قوت قلب بازبین ها خوب باشه هم برای ترغیب به ادامه کار.
با سلام،
و خسته نباشید
بسیار سپاسگزارم از زحمتی که برای فرهنگ ایران زمین می کشید.
با اجازه شما پیشنهاد می دهم که تصحیحات نه فقط از نظر املایی که از نظر دستور خط هم صورت بگیرد. همینک بهترین فرصت است که علائم سجاوندی از قبیل {، » « . : ؟ ! } به متون کهن اضافه شود.
در این پیوند به خوبی نحوه استفاده از علائم سجاوندی آورده شده است:
http://sarapoem.persiangig.com/link7/sajavandadib.htm
همچنین بهتر از قبل از درخواست از بازدیدکنندگان برای اصلاح، اندکی آموزش هم به کاربران داده شود یا دست کم به صورت پیوندی در صفحه دیگر، این آموزش در اختیار آنان گذاشته شود تا اصلاحات له بهترین شیوه صورت پذیرد.
بسیار کار زیبایی کردید دستتان درد نکند
عالیه متشکرم
سلام
با تشکر از زحمات شما ،سایتتون خیلی عالیه،یعنی حرف نداره!
یه سوال داشتم :اگه اشتباهن مصرعی را اشتباه درست اعلام کنیم چه طور آن را دوباره اصلاح کنیم.
ممنون میشم اگه جواب دهید
عالیه. موفق باشید. هر کمکی از دستم بر بیاد انجام میدم.
سلام من واقعا بهت زده شدم از این که یک ایرانی تا این حد توانسته در اینترنت تاثییر گذار باشد
شما مدیر آینده بزرگترین سایت دنیا خواهید بود با آرزوی موفقیت برای شما علی رضا عافیت طلب فیزیوتراپیست
سلام.
واقعن خسته نباشید.
همه ی علاقمندان به فرهنگ و هنر ایرانی پشتیبان شما هستن.
کاش می شد ترتیبی داده بشه تا دوستان وبلاگ نویس که صفحات پربازدیدی هم دارن، اینجا رو تبلیغ کنن.
به هر صورت موفق و پیروز باشید.
با سلام و تشکر
من بعنوان یک شیفتهء شعر، این لینک گنجور رو با ایمیل فوروارد کردم برای دوستانم و ازشون خواستم که حتما در بخش بازبینی مشارکت داشته باشن.
موفق باشید
با سلام
به عنوان یک برنامه نویس ایرانی واقعا لذت بردم……
سیستم ا سی آر هوشمندی طراحی کردید واقعا خسته نباشید
بنده از علاقمندان به کمک در این پروژه (برنامه نویسی) هستم.
خوشحال می شم اگه لایق بدونید و کاری از دستم بر بیاد کمکی کنم
موفق باشید
ان شاء… من هم افتخار می کنم در این کار سهیم باشم.
بنده ی حقیر فوق لیسانس ادبیات علوم انسانی(ان شاء… چند ماه دیگر دکترا)هستم و خوشحال می شوم به شما در این زمینه و هر زمینه دیگر کمک کنم.
با تشکر
به نظر میرسه اصل نوشته ها هم در برخی جاها دچار اشکال تایپی باشه که اصلاح آنها الزامی به نظر میرسه،خواستم این رو گفته باشم که در توضیحات اولیه این مطلب را به مصححین گوشزد کنید که کار بهتر و درستتر از آب دربیاد
با تشکر
عالیه. من دارم مشارکت میکنم.
میگم چرا بعضی از کلامات هیچ فاصله ای نداره ؟ از لحاظ دستوری چطوریه؟ مثل این کلمه
” برگلکشد ” کلمه “گل “و “کشد” به هم چسبیده. چطور؟با چه کاراکتری.این درسته یا باید فاصله داشته باشه.
راستی علامتهای دستوری چی؟مثل کاما و اینا.بذاریم؟
سلام
از کارتون واقعا تشکر می کنم و حتما بهتون کمک می کنم. از این اینکه به نگهداری و گسترش فرهنگ ایران کمک می کنید، خیلی خوشحالم.
yeki tozih bede nafahmidam chi shod
yeki tozih bede nafahmidam chi shod
yeki tozih bede nafahmidam chi shod
yeki tozih bede nafahmidam chi shod
yeki tozih bede nafahmidam chi shodeki toyeki tozih bede nafahmidam chi shodzih bede nafahmidam chi shodyeki tozih bede nafahmidam chi shod
yeki tozih bede nafahmidam chi shod
yeki tozih bede nafahmidam chi shod
yeki tozih bede nafahmidam chi shod
۱. همانطور که میدانید نرمافزار درج ۳ (با حدود یک میلیون بیت شعر) فاقد شعرهای برخی شاعران مهم است. آثاری مانندِ دیوان ابنیمین فریومدی، گرشاسبنامۀ اسدی طوسی، پنجگنج (خمسۀ) امیرخسرو دهلوی، دیوان لامعی گرگانی، و… پیشنهاد میکنم متنهایی را در اولویت قرار دهید که در نرمافزار درج ۳ وجود ندارد تا به این وسیله مکملی برای آن نرمافزار باشید.
۲. به متون مهم منثور نیز بپردازید، بهویژه آنهایی که در نرمافزار درج ۳ و نرمافزارهای مؤسسۀ علوم قرآنی نور وجود ندارد. (درج ۳ از لحاظ متون نثر فقیر است.)
۳. توجه داشته باشید شعرهایی که در قالب مثنوی هستند از اهمیت بیشتری برای پرداختن برخوردارند. زیرا جستوجوی بیت در یک مثنوی، بدون استفاده از کشفالابیات و نرمافزار، عملاً غیرممکن است، ولی در دیوانها با استفاده از حرف رَویِ (ravi) غزل و قصیده با صرف کمی وقت امکانپذیر است.
با سلام و خسته نباشید.
برنامه بسیار ارزشمند و پر محتوایی را تهیه کرده اید.
به قدر یک ایرانی از گرامیداشت فرهنگ این مرز و بوم . بقدر یه انسان از تدوین و گرد آوری این مجم.عه ارزشمند انسانی سپاسگذارم. دست حق به همراه هتان.
کمک گر تو گیری ز نیکان بگیر
ز استاد فن و ادیبان پیر
چه خوش گفته سعدی در این رهگذار
یکی مرد جنگی به از صد هزار
حرکت شما جای تقدیر داره.
کمک میکنم
لطفا حداقل به صورت بیت باشه و تصادفی هم نباشه و پشت سر هم باشه
مشارکت در این طرح افتخاریه برای من
تا بتونم شرکت می کنم در طرح تون
خداوکیلی ظلم نیست ما وقت بذاریم که دیوان امیر معزی بازبینی بشه؟
اصلا این شاعرا چطور انتخاب میشن؟ چرا یه سیستم ساده نمیذارید که کاربرا انتخاب کنن کدوم شاعر و کدوم کتاب اضافه بشه ؟
آدم رغبت نمیکنه از بس که چاپلوسی امیر و وزیر رو میکنه
با تشکر
اگر چند خط راهنمایی توی صفحه بازبینی اضافه بشه که نیم فاصله و حرکت ها ( ّ َ ُ ِ ً ٌ ٍ ) و … رو یادآوری کنه خیلی بهتر میشه
اینجارو :
http://v.ganjoor.net/images/view/144321
بافته جادو به صدهزار فن اندر
و در هر URL نشانه ای قرار دادیم برای آنانکه می اندیشند
تو کامنت بالایی لینک رو اشتباه کپی کردم :
http://v.ganjoor.net/images/view/100000
من هم مشتری گاه گاه گنجور هستم و متشکر.
۱. روش فعلی نیم بیت های پراکنده بازده بیشتری از انتخاب مرتب دارد. رای گیری های روی اینترنت همه از انتخابات راندوم استفاده میکنند.
۲. در خط فارسی، اصلاح نیم فاصله و فاصله بعد از اصلاح کلمه ها انجام میشود. این اصلاح توسط الگوریتم با استفاده از فرهنگ لغات ممکن است.
۳. کاربران بسیار دانا تری از من از گنجور استفاده میکنند. پس دو پیشنهاد بالا فقط رای خاضعانه من هستند.