پیشتر اشاره کرده بودم که قصد دارم به کمک OCR دامنهٔ دادههای موجود در گنجور را گسترش دهم و کار را هم با اضافه کردن کتاب کوچکی از سنایی غزنوی، قسمتی از غزلیات بیدل دهلوی و چند قصیده از قاآنی شروع کرده بودم.
قبلاً هم گفته بودم که اضافه کردن اشعار با استفاده از OCR، غیر از امکانات و زمانی که برای اسکن و اجرای پردازش OCR روی ورودیها و دریافت خروجی نیاز دارد نیاز به یک کار چشمی پر زحمت دارد تا دقت خروجیها به سطح قابل قبول برسد. گفته بودم که برنامهای دارم برای آن که علاقمندان گنجور را در این کار به همیاری دعوت کنم و با استفاده از مشارکت آنها سرعت و دقت گسترش دامنهٔ دادهها افزایش یابد.
الان، طرح سادهای آماده کردهام برای آن که به کمک آن این امر را محقق کنم. علاقمندان با مراجعه به این نشانی میتوانند با بازبینی خروجیهای OCR به گسترش دامنهٔ دادههای گنجور کمک کنند. سیستم طراحی شده بر اساس تعداد رأیهای کاربران به متون کار میکند و نهایتاً با غربال پررأیترین گزینهها خروجیها را تولید خواهم کرد. اگر اشتباه کردید: اشتباه تایپی یا انتخاب اشتباه، نگران نباشید! علاقمندان دیگر نیز خروجیها را میبینند و اشتباه شما را با رأیهایشان به متون درستتر تصحیح میکنند. فقط لطفاً در صورتی که صفحهکلید فارسی ندارید در این کار مشارکت نکنید! ورود متون به صورت فارگلیسی هیچ کمکی نمیکند.
فعلاً خروجیهای باقیماندهٔ جلد اول غزلیات بیدل دهلوی در این سیستم در دسترس قرار دارند و به زودی باقیماندهٔ دیوان قاآنی را نیز در این سیستم در معرض بازبینی علاقمندان قرار میدهم.
فقط به نظر من خیلی بهتر می شود اگر برای بازبینی، یک بیت کامل را قرار دهید و نه یک مصرع. و اسم شاعرش را هم بنویسید. اینطوری به نظرم بچه های بیشتری کمک می کنند. چون انگار آدم دارد شعر می خواند.
خیلی عالیه امروز اولین روزی که این سایت به من معرفی شده و کلی از ان لذت بردم از تمامی کسانی که برای کار زحکت کشیده اند متشکرم
درود بر شما.
خرسندم که منم می تونم کاری برای این سایت انجام بدم.
در این روزگار پر ملال تنها ورطه ی فرار ادبیات و شعر هست.
زنده باد ادبیات ایران
زنده باد ایران و ایرانی
salam man mikhyam ki shoma bare man bogoyed ki man dar kodam jaye ya dar dewane kodam shair
MONHJAT pyda karda mitnom. tashkor
درود
از همه ی اونایی که زحمت کشیدن، میکشن و خواهند کشید متشکرم
بسیار سایت عالی دارید. خصوصا برای ما که پشت کامپیوتر فرصت کتاب خواندن نداریم. اگر خواستار مشارکت باشید من و دوستان در حد توان و با کمال میل در خدمتیم.
سلام عزیزان
واقعا شاد شدم دیدم که چنین کار ارزشمندی انجام شده
رشته تخصصی من شیمیه و لی کارتون آنقدر ارزش داره که همه رو جذب کرده.
موفق باشید
سلام…
ممنون واسه اين كار ارزشمند… خيي ناراحتم كه چرا دير اينجا رو پيدا كردم… مهمون هميشگيتونم. كارشناس زمين شناسي هستم اما علاقۀ وافري با ادبيات دارم…
يا علي
خیلی ممنون زحمت کشیدید
با عرض سلام
ايده اي زيبا و با زحمت بسيار . كه اميد است موفق باشيد
اينجانب هم در حد توانم در خدمتتان خواهم بود
باشد كه فرهنگ زيباي و والاي ايران زمين و زبان شيواي فارسي بدست تواناي شمايان پرورده تر گردد
سلامت را چه خوش گفتند پاسخ
یاران بس وفادارند
کارتون کاملاً قابل تقدیر و تمجید
حتماً کمک میکنم
کارتون واقعا عالیه و ما خوشحال می شیم کمکتون کنیم
با کمال میل کمکتون میکنم .
با تشکر و سپاس فراوان
اگه تصویر یک بیت باشه این کار لذت بیشتری داره.
امکانش هست که تصویر رو از یک مصرع به یک بیت تغییر بدید؟
با سلام ودرود
ضمن تشکر از زحمات جناب عالی از اینکه اینچنین مجموعه بی نظیر ادبیات و عرفان را جمع آوری کردید سپاسگزارم.
نظر به اینکه در اکثر موارد در مورد حرف ” أ ” دچار مشکل هست میتوانید به تصحیح کنندگان اعلام فرمایید تا از کلید shift-n استفاده نمایند.
با تشکر فراوان از کوشش و زحمت شما
در پناه مولا
@یگانه:
نه، متأسفانه امکان نداره، عموماً شعرها به صورت ستونی بازشناسی شدن، یعنی مصرعهای اول همشون با همن، مصرعهای دوم همشون با هم و وقت آپدیت با نگاه باید ستونهای متناظر رو پیدا کنم و ترکیب کنم.
@مهدی:
همچنان که با ایمیل خدمتتون گفتم، سعی میکنم اگه فرصتش پیش بیاد یه راهنما برای صفحهکلید درست کنم تا دوستان بتونن کاراکتر درست رو تایپ کنن.
سلام خسته نباشید که واقعا کار سترگی انجام داده اید تا محققین و نیازمندان خیلی آسان با کلید وازه ای به آنچه مورد نیازشان است دسترسی سهل و آسان داشته باشند .
با کمال احترام
بسیار عالی، تو این چند سالی که با اینترنت کار میکنم اولین باره که واقعا دوست دارم به یه سایت کمک کنم، چون گنجور فوق العاده است. هر قدر که در توانم باشه در خدمتم.
خیلی وقت بود که می خواستم ازت(ازتون) تشکر کنم! واقعا دست مریزاد.
سلام . کارتون فوق العاده است ، من که با دیدین سایتتون واقعا متعجت و خوشحال شدم . انشاالله در این مسیر موفق باشید .امیدوارم بتونم در این حرکت زیبا کمکی انجام بدم.
خداوند خیر دنیا و آخرت رو نصیبتون کنن.
سلام خسته نباشید من هر روز سعی میکنم کمک کنم…..
پیشنهاد می کنم متن ها از یک تک مصرع به چیزی برسه که برای کسی که داره می خونه تا تصحیح کنه هم متن قابل استفاده باشه و از اون یه بهره ای ببره.
@کاوه
امکانش وجود نداره (اطلاعات کافی در مورد ارتباط مصاریع وجود نداره و ارتباط مصاریع با یه بازبینی چشمی در مرحلهٔ پایانی کار مشخص میشه).
چنانچه در قسمت اصلاحات به جای مصرع بیت اورده شود برای مصحح لذت بیشتر تاثیر اموزشی بیشتر علاقه بیشتر وبالطبع انگیزه وسرعت عمل بالاتر میرود خواهش میکنم امتحان کنید با تشکر .عادله
@Anonymous
جواب جناب کاوه رو ببینید، جواب شما هم هست.
نکته ای به نظرم می رسه که فکر می کنم لازمه زودتر بهش توجه بهشه چون بعد واقعا راه برگشتی نیست
یکی از مسائلی که به نظرم اصلا بهش توجه نشده، رسم الخط هست.
مثلا در موارد متعددی از اصلاح دیدم که نیم فاصله ها حذف و به جای اون از فاصله استفاده شده است. که جالب اینجاست این تغییر به عنوان اصلاح و تصور می کنم از طرف افرادی مثل من که در حال بررسی مصراع ها هستند صورت گرفته.
هرچند که این اشتباه به شدت در رسم الخط چاپی و انلاین زبان فارسی وجود داره و کمتر کسی ازش اطلاع داره و بهش توجه می کنه. اما به نظرم بد نیست با یک کارشناس و متخصص مشورت کنید و حالا که کار چنین با ارزشمندی در جریان هست طوری پیش رود که خروجی هم از استانداردهای لازم برخوردار باشه
با سلام و خسته نباشید.
کار بسیار ارزشمند و جالبی انجام می دهید. اطاله ی سخن بیهوده خواهد بود اگر محسنات این کار را به شمایان که خود حتما واقف بدان هستید مکرر عرض کنیم. فقط بیان ان نکات را در جهت استناد پذیر تر شدن و بهبود کار عرضه میدارم.
۱- نام نسخه ی استفاده شده را ذکر کنید تا با توجه به نسخه بدل های موجود نکات اصلاحی ومرجهات را بیان کنیم.
۲ – در صورت نیاز کتبی را که به نسخ عکسی (pdf) آن دسترسی ندارید اعلام کنید تا در صورت دسترسی برای شما عزیزان ارسال کنیم . مثلا کتبی مانند غزلیات بیدل چاپ کابل یا تحفه ی خاقانی چاپ مصر که بهترین نسخ هستند را با هزینه ای بالا تبدیل به pdf کرده ام که موجود است.
در نهایت منتهای مراتب سپاس مارا پذیرا باشید.
جلالدین عزیزی
@افشین:
در مورد رسمالخط، مشکلاتی وجود داشته و داره از جمله این که سیستم OCR مورد استفاده از لحاظ تشخیص نیمفاصله و فاصله اشکالاتی داره، در بعضی موارد هم مشکل از نرمافزار OCR نیست و مصرعها توی نسخهٔ چاپی برای این تراز بشن کلمات درشون فشرده چاپ شدن و فواصلی که در اصل فاصله هستن رو سیستم OCR نیمفاصله تشخیص داده. از طرف دیگه همهٔ تلاش من بر این بوده که سیستم بازبینی تا حد امکان ساده باشه و از گذاشتن محدودیتهایی که میزان مشارکت رو کاهش میده خودداری کردم. تصور من این بوده که گذاشتن قواعد سختگیرانه باعث میشه دوستانی که میتونن با صرف دقایقی در روز به پیشبرد کار کمک کنن، خیرخواهانه، به دلایلی از جمله عدم تسلط کافی بر صفحهکلید، از مشارکت خودداری کنن و این ضررش بیشتر از فایدهشه. در گام اول تصحیح غلطها مهمتره. اما در کل، من توی فکرم بودم که یه راهنمای رسمالخط صحیح به همراه راهنمای تایپ کاراکترهای خاص روی صفحهکلیدهای مختلف رو اضافه کنم و اگه فرصت و حوصلهش فراهم بشه این کار رو میکنم.
@جلالدین:
۱- مشخصات نسخهٔ استفاده شده برای بیدل در صفحهٔ منابع آمده:
http://ganjoor.net/sources/bidelocr
۲- متأسفانه با امکانات فعلی امکان مقابلهٔ نسخ مختلف وجود ندارد (اگر منظور شما این است)، اما برای شاعرانی که هنوز به گنجور اضافه نشدهاند ارسال تصویر از کتب چاپی جدید که حداقل با رزلوشن ۳۰۰ نقطه بر اینچ اسکن شده باشند و فونت آنها یکی از فونتهای لوتوس، نازنین، زر، میترا، هما، یکان، کریم، بدر، کامپست، یاقوت یا احیاناً تیتر و ترافیک باشد (قابل OCR باشند) میتواند برای استفاده در مراحل بعدی کار مفید باشند. ارسال تصویر نسخ خطی یا چاپ سنگی چندان سودی برای این کار ندارد.
اقا وظیفه مونه دمتون گرم. تا بتونم وقت میذارم.
سلام
آفرین بر شما
حتما کمکتون می کنم.
با اهداء سلام و احترام
من به تازه گی با سایت شما آشنا شدم، پیشنهاد می کنم متن کامل اشعار را در اختیار بینندگان قرار دهید، به این ترتیب بهتر می توان واژه درست را یافت.
با تشکر از زحمات شما
@صادقی:
امکانش وجود نداره، نظرات قبلی رو ببینید:
http://blog.ganjoor.net/1389/03/17/vganjoornet/#comment-1037
خدا قوت 🙂
با سلام
دم شما گرم
کار بسیار جالبی است و نتیجه با ارزشی در پی خواهد داشت
لینک این سایت برای دوستان ارسال شد.
امیدوارم همراه در راه اعتلای ادبیات پارسی به کار گرفته شود و نه چیز دیگر.
موفق باشید.
سلام درباره ریاضت اشعار ی مولانا فرموده خواستم بدانم در کجاست ممنون میشم زحمت کشیدید خسته نباشید.
بسیار عالی
همه چیز در این وبسایت عالی هست و من هم به نوبه ی خودم در این طرح شرکت میکنم
خسته نباشید
دو تا سوال دارم:
۱- در مواردی که متن اصلی پانویس داشته و شماره پانویس در تصویر دیده میشه، باید شماره را حذف کرد یا خیر؟ من به یک مورد برخوردم و حذف کردم.
۲- قراره نهایتا چند دور بازبینی انجام بشه؟ از این بابت میپرسم که الان که مرحله سوم بازبینی هستیم، هنوز اشتباهات اصلاحنشده خیلی واضحی در متنها دیده میشه.
@احسان:
اول یه توضیح بدم در مورد مرحلهها، منظور من از مرحلهها توی تازههای گنجور دورهای جدیده، توی مرحلهٔ اول یا همون دور اول قسمت اعظم جلد اول غزلیات بیدل و کل قصاید قاآنی بازبینی شد، توی مرحلهٔ دوم جلد دوم غزلیات سوم بازبینی شد و الان توی مرحلهٔ سوم غزلیات قاآنی داره بازبینی میشه. منظور این که هر مرحله تصاویرش جدیدن و توی مراحل قبل دیده نشدن، غزلیات بیدل الان کارشون تموم شده و برای واضحتر شدن مطلب توی مرحلهٔ دوم (جلد دوم غزلیات بیدل) تقریباً همهٔ تصاویر سه بار دیده شدن، کارش تموم شد و الان خروجیها توی سایته. توی مرحلهٔ سوم یا همون غزلیات قاآنی تصاویر دارن برای اولین بار دیده میشن و توی هفتههای اول عموم تصاویر یا دیده نشده یا یک بار بازبینی شدن. کار این مرحله هم وقتی تموم میشه که سه بار تقریباً همهٔ تصاویر دیده بشن. آمار روزانه تقریباً نشون میده که تا کجا پیش رفتیم:
http://v.ganjoor.net/verification_results/stats
حدوداً ۹۰۰۰ تصویره که باید جمع این آمار روزانه سه برابر این عدد بشه تا این مرحله رو هم تموم کینم.
در مورد دقت، خودم هم دیدهم، کلاً توی غزلیات قاآنی دقت بازشناسی OCR شدیداً پایین بوده، نوع اسکنری که باهاش تصاویر این مرحله رو اسکن کردهم متفاوت بوده و به جای تصاویر رنگی از تصاویر دوسطحی استفاده کردم که مشخصه کار درستی نبوده، اما خوشبختانه آمارش زیاد نیست. یادم نمیاد ولی امیدوارم در مورد ملک الشعرای بهار که توی مرحلهٔ بعدی کاره این اشتباهات رو نکرده باشم چون حجم اون کار بالاست.
در مورد پانویسها، اگه راهی برای حذف سریعشون از ورودیها بود این کار رو در مورد قاآنی میکردم، یعنی حداقل در گام اول قصد ندارم اینها رو وارد سایت کنم، زحمات بعدی دارن. به همین لحاظ شاید صرف وقت زیاد در موردشون چندان مفید نباشه هر چند با توجه به انرژیی که روشون گذاشته میشه وظیفهٔ منه که از خروجیهای اونها استفاده کنم اما این کار رو برای زمانی میگذارم که فرصت بیشتری داشتم.
در این موارد، من خودم که تصحیح میکنم طبق سلیقهٔ خودم عمل میکنم، با توجه به این که وفاداری به متن برای شعرها فقط مهمه شاید عدم وفاداری یا حتی خلاصهنویسی در مورد خطوط مربوط به حاشیهها مفیدتر باشه و کار رو سریعتر تموم کنه.
نهایتاً، یک بار دیگه به سهم خودم از شما و دوستانی که در این کار مشارکت میکنید و کمک میکنید تا آثار ارزشمند کذشتگانمون آسونتر در اختیار همه قرار بگیره تشکر میکنم.
خیلی زیبا هست
با سپاس
سلام
بسیار عالی
راه تان پر رهرو باد
سلام
خیلی کار خوبی بود ، من از نرم افزار گنجور استفاده میکنم اما اولین بار هست که به طور اتفاقی متوجه شدم گنجور سایت هم داره. منم کمک کردم و به دوستانم هم اطلاع میدم کمک کنن
یا علی مددی
سلام با تشکر از کار با ارزشتون توضیحات برای من کافی نبود. من خودم هم میتونم شعر اضافه کنم یا برای همکاری باید اشعار رو از شما بگیرم؟ اگر خودم میتونم اضافه کنم باید اول فایل پی دی اف بسازم بعد تو سایت شما تایپ کنم؟ میشه توضیح بیشتر رو به ای میلم بفرستین؟ ممنونم
سلام.
سعی دارم که هربار به سایت گنجور برم به این صفحه هم بیام.
من تا امروز نمی دونستم.
حتما کمک می کنم.سایت فوق العاده ای دارین.
با تشکر
سلام
من تقریبا هر روز تا حدی که فرصت داشته باشم تصحیح می کنم
آدرس و مشخصات سایت و توضیحات رو به همکاران خودم هم دادم که هر روز به میزانی که می تونند مشارکت داشته باشند.
سلام
كار خيلي خوبيه و موفق باشيد.
من هم دارم كمك ميكنم فقط يه سئوال دارم.
آيا فاصله ها بين كلمات نبز بايد رعايت شود يا خير مثلا :
۱- صد مرد
۲- صدمرد
(به معني يكصد نفر مذكر) آيا هر دو مورد درست است و يا بايد مانند مورد شماره ۱ بين كلمات “صد” و “مرد” فاصله بگذاريم؟ ازاين موارد زياد پيش مي آيد كه تمامي متن درست است ولي فاصله بين كلمات رعايت نشده.
سلام
آقا دمت گرم!
فقط یه نکته: کاش یه دکمهای برای undo میذاشتی. من داشتم چند تا بیت رو ویرایش میکردم که به طور اتفاقی روی یکی کلیک کردم که اشکال نیمفاصلهای داشت (روم به دیوار) الان احتمالاً درست نشدهاش رفته روی پایگاه دادهٔ شما و حالا من حسابی عذاب وجدان گرفتم.
بسیار عالیست. من هم به نوبه خود اندک مشارکتی دارم. موفق باشید.
@سزوش:
نگران نباش، من خودمم از این کارا کردم و میکنم. نفر بعدی درستش میکنه، نفر بعدتر درستترش رو تأیید میکنه، حل میشه.
ممنون
من هم تا جایی که بتوانم مشارکت خواهم کرد . فقط در اعداد گذاری کمی مشکل دارم . اعداد ، فارسی تایپ نمی شوند