پیشتر اشاره کرده بودم که قصد دارم به کمک OCR دامنهٔ دادههای موجود در گنجور را گسترش دهم و کار را هم با اضافه کردن کتاب کوچکی از سنایی غزنوی، قسمتی از غزلیات بیدل دهلوی و چند قصیده از قاآنی شروع کرده بودم.
قبلاً هم گفته بودم که اضافه کردن اشعار با استفاده از OCR، غیر از امکانات و زمانی که برای اسکن و اجرای پردازش OCR روی ورودیها و دریافت خروجی نیاز دارد نیاز به یک کار چشمی پر زحمت دارد تا دقت خروجیها به سطح قابل قبول برسد. گفته بودم که برنامهای دارم برای آن که علاقمندان گنجور را در این کار به همیاری دعوت کنم و با استفاده از مشارکت آنها سرعت و دقت گسترش دامنهٔ دادهها افزایش یابد.
الان، طرح سادهای آماده کردهام برای آن که به کمک آن این امر را محقق کنم. علاقمندان با مراجعه به این نشانی میتوانند با بازبینی خروجیهای OCR به گسترش دامنهٔ دادههای گنجور کمک کنند. سیستم طراحی شده بر اساس تعداد رأیهای کاربران به متون کار میکند و نهایتاً با غربال پررأیترین گزینهها خروجیها را تولید خواهم کرد. اگر اشتباه کردید: اشتباه تایپی یا انتخاب اشتباه، نگران نباشید! علاقمندان دیگر نیز خروجیها را میبینند و اشتباه شما را با رأیهایشان به متون درستتر تصحیح میکنند. فقط لطفاً در صورتی که صفحهکلید فارسی ندارید در این کار مشارکت نکنید! ورود متون به صورت فارگلیسی هیچ کمکی نمیکند.
فعلاً خروجیهای باقیماندهٔ جلد اول غزلیات بیدل دهلوی در این سیستم در دسترس قرار دارند و به زودی باقیماندهٔ دیوان قاآنی را نیز در این سیستم در معرض بازبینی علاقمندان قرار میدهم.
کاش یه جوری میشد تو صفحه بازبینی فهمید که چند درصد پیشرفت داشته کار.
بالاخره امیر معزی اعتراف کرد:
شاعر دولت معزی زیر بار شکر توست
http://v.ganjoor.net/images/view/143136
خداروشکر که الان زندگی نمی کنه والا چه شعرایی می گفت!
جا داره از خودم تشکر کنم
هر روزی که من نبودم آمار زیر ۲۰۰ بوده
@پایه ثابت گنجور:
به سهم خودم از تلاش شما تشکر میکنم و عذرخواهی میکنم بابت این که فرصت پاسخگویی به تمام اظهار محبتهای شما فراهم نمیشه، آمار تفصیلی رو فرصت بشه در دسترس میگذارم.
شاد و پیروز باشید.
کار هارو که بدن دست کاردونش همه چی درست میشه…
مثل شما بروبچه های گنجور
کارتون درسته… حرف نداره
بابت خدمات ارزندتون ممنون
با سپاس
مستمر کمکتان میکنم و در تصحیح چشمی ابیات، در کنارتان هستم.
آقا من که معتاد این تصحیح کردن شدم،روزی حداقل ۱۰۰ تا!
خیلی امکان خوبیه و تا جایی که بتونم کمک میکنم.
گنجور توی گوگل پلاس صفحه نداره؟ خیلی واجبه ها! این صفحه زیادی سنگین میشه. کلا دوستان یه جایی واسه دور هم جمع شدن داشته باشن بهتره. پتانسیل زیادی توی شبکه های اجتماعی هست که میتونه به کار بازبینی خیلی کمک کنه. اگه وقت کافی ندارید برای اینجور کارا سعی کنید یه جوری تقسیم کار کنید. الان همه کارها رو تنهایی انجام میدید؟ خوب سخته دیگه!
لطفا یک دکمه دیگر هم در قمست نخیر آقا بگذارید ” سواد من به این مصرع نمیرسد برو بعدی”
سلام
این روش خیلی سخته
اگر مصرعها به ترتیب بیاد راحت تر میشه کار کرد.
یا اینکه حداقل بیت بیت باشه.
سپاس
بهتر شد
بی زحمت بیدل و صائب رو هم کامل بفرمایید.
سعی میکنم کمک کنم،فقط اگر امکان داره یه قسمتی برای نام یا پست الکترونیکی قرار بدید تا از میزان مشارکت افراد آماری برای خودش و دیگران حاصل بشود.
اینطوری هم تشویقی برای مشارکت هست هم اینکه چه کسایی بیشترین تلاش رو انجام دادن ،و هم از تعداد دوستداران و مشارکت کنندگان یه آمار برای بازدید کننده ها به دست میاد ، البته زحمت اصلی برای توسعه دهنده های نرم افزاره
ممنون….
با تشکر فراوان از شما
سلام
واقعا کارتون خیلی خوبه
تنها چیزی که برامون مونده همین زبان فارسی یه
تاجایی که بتونم کمکتون می کنم
با سلام
در صورت امکان مشخصات نرمافزار OCR استفاده شده در این سایت را ذکر کنید
باتشکر از شما
ممنون. جالب بود
ممنون . خیلی جالب بود
لطفا یک دکمه دیگر هم در قمست نخیر آقا بگذارید ” سواد من به این مصرع نمیرسد برو بعدی”
با سپاس
مستمر کمکتان میکنم و در تصحیح چشمی ابیات، در کنارتان هستم.
آقا من که معتاد این تصحیح کردن شدم،روزی حداقل ۱۰۰ تا!
خیلی امکان خوبیه و تا جایی که بتونم کمک میکنم.
کاش یه جوری میشد تو صفحه بازبینی فهمید که چند درصد پیشرفت داشته کار.
کار هارو که بدن دست کاردونش همه چی درست میشه…
مثل شما بروبچه های گنجور
کارتون درسته… حرف نداره
بابت خدمات ارزندتون ممنون
@پایه ثابت گنجور:
به سهم خودم از تلاش شما تشکر میکنم و عذرخواهی میکنم بابت این که فرصت پاسخگویی به تمام اظهار محبتهای شما فراهم نمیشه، آمار تفصیلی رو فرصت بشه در دسترس میگذارم.
شاد و پیروز باشید.
سلام. به نظر من هم روش خیلی سختیه … از آنجا که تصاویر تنها دورنگ سیاه و سفید هستند شاید بتونید از ویرایشگر های تصویری اتومات بهره بیشتری ببرید. خواهشن در مورد OCR مفصل توضیح بدید تا دوستان بتونند با نظراتشون بیشتر کمکتون کنند.
من تا جايي كه وقت كنم به اين سايت سر ميزنم تا بتونم سهم كوچكي داشته باشم تو اين پروژه بزرگ
خيلي كارتون درسته
عالی
سلام
خیلی خوب است ، حتما کمکتان می کنیم ولی چند مشکل:
۱) ممکنست بعضی وقت ها به صورت سهوی ، موردی را تایید کنیم و امکان تصحیح آن نیست
۲) اگر یک شعر به صورت کامل باشد ، انگیزه بیشتر است ، چون هم از خوان شعر لذت می بریم و هم یک وظیفه اجتماعی را انجام می دهیم
۳) امکان نظر برای کاربران حتی با توجه به عکس ارائه شده باشد ،چون بعضی وقت ها همان شعرهای تایپ شده هم مشکل دارند و باید تصحیح شوند
۴) به نظر اگر افرادی بخواهند با نام کاربری هم وارد شود بهتر باشد و کار شما برای تصحیح نهایی با توجه به سابقه ایشان راحت تر است
با سلام
بسیار کار خوبی انجام شده فقط اگر این نرم افزار رو به صورت CAPTCHA در اختیار سایتهای ایرانی یا خارجی قرار دهید به دلیل رایگان بودن و امنیت بالاتر هم سایتهای ایرانی از آن حمایت میکنند هم به توسعه کار شما عزیزان کمک میشود. کاری که گوگل الان سالهاست داره از آن استفاده میکند
سلام واقعا خسته نباشید
بنظرم کارتون خیلی عالیه، مخصوصا او سی آر. من یک علاقه مند به هوش مصنوعی هستم و قبلا در باره او سی آر فارسی بک کارهای خانگی انجام دادم. با توجه به علاقه زیادی که به ادبیات مون دارم. خوشحال میشم اگر کمکی از من بر بیاد. (ایمیلم رو وارد کردم اگر امری داشتید)
درود
گمان مبر که به پایان رسید کار مغان
هزار باده ناخورده در رگ تاک است
بسیار سپاسگزار از ارزش و وقتی که برای این کار ستوده گذاشتید. ادب پارسی بیش از اینها سزاواری دارد. این دریای بزرگ ادب و مینو تشنگان فراوانی از سراسر گیتی دارد. این گامی تاثیر گذار خواهد بود.
درخواستی داشتم و آن این است که چه بهتر بود امکانات بیشتری برای جستجوی پیشرفته میگذاشتید. برای نمونه میخواهم به یک گرهی اشاره کنم که میباید گشوده شود. من هنگامیکه یک واژه برای نمونه ” مرد” را جستجو میکنم ممکن است با واژه های “مردن” “مردانه” “امرد” “مرده” و جخد با چیزی مانند “کمر در ..” که مر از کمر و د از در را که هر یک برای واژه ای ست روبرو شوم چرا که مرد در میان همه آنها هست. از شما خواستار پیراست این ایراد هستم
با سپاس
سلام و درود
حرکت فوق العاده ای هست ، حتما در زمانهایی که فرصت داشته باشم کمکتون میکنم .
سلام .
خسته نباشید ، برنامه ی خیلی محشری هست .
فقط یک سوال داشتم .
شما به زودی یک دیتابیس بسیار بسیار کامل و OCR بسیار قوی ای پیدا خواهید کرد !
آیا امکانش هست که یک API یا یک حق اشتراکی برای استفاده از این OCR فراهم کنید ؟
مثلا اگر کسی علاقه مند بود برنامه ای بنویسه با کمک OCR شما … تحت چه لیسانسی اجازه ی استفاده از این OCR رو بهش میدید ؟
اصلا امکانش هست ؟
ممنون
سلا و خسته نباشید ایده بسیار خوبی است و ممنون از کاری که دارید انجام می دید اما یک پیشنهاد داشتم .
پیشنهاد می کنم این سیستم رو تبدیل به یک کپچا کنید که سایت های وب فارسی بتونن ازش استفاده کنند و در عین حال دیتا بیس شما سریعتر تکمیل بشه همانطور می دونید کپچا یک سیستم اطمینان از انسان بودن کاربری که قصد لوگین دارد می باشد .
برای هر گونه اطلاعات جانبی و نیاز خوشحال می شم همکاری داشته باشیم 🙂
سلام،
می تونم بپرسم سیستم OCRی که استفاده می کنید، چی هست؟
و اینکه آیا سیستم open access هست؟
ایده کراودسورس کردن نتایج عالی بود.
با سلام و خسته نباشید.من هم سعی میکنم نقشی هر چند کوچک در این کار خیلی با ارزش داشته باشم.
درود
و سپاس از سایت خوبتون. نظر به اینکه اغلب برای جستجوی اشعار به گنجور مراجعه می کنم وظیفۀ خودم می دونم دینم رو به این طریق هر چند ناچیز ادا کنم
سلام
از گذشته وستدار کارهاتون بودم و هستم
متاسفانه سری جدید ocr غلطهای فاحشی دارد
مثلا «این» را نوشته بود۱-۱۲
یا تلاش را نوشته بود تلافمن
که در گذشته اینقدر غلط نداشت
خواستتم تذکر بدهم شاید از تنظیمات نرم افزارتون باشه
تکمیل اخرین مجموعه هم تبریک میگم
@سید محمدرضا شهیم:
از لطف جنابعای سپاسگزارم.
مرور سطحی روی کیفیت خروجیها داشته ام و متأسفانه این مرور من را به این نتیجه رسانده بوده که کیفیت خوب است. تغییر تنظیمات و خروجی مجدد گرفتن الان خیلی مقدور نیست. امیدوارم کیفیت اینقدرها که شما می فرمایید بد نباشد و موارد مشکلدار مربوط به قسمت کوچکی از خروجیها باشد و نهایتا بتوانیم روی بازبینیها برای بهبود کیفیت حساب کنیم.
سلام
هاء و یاء کوچک روی آن در صورتی که برنامه به درستی تشخیص دهد به صورت «ة» نمایش داده میشود در حالی که باید به صورت «هٔ» باشه، یعنی دو کارکتر جداگانه
البته این کارکتر «ة» آنچنان که خودتان بهتر میدانید در خیلی از فونتهای فارسی به صورت «هٔ» نمایش داده میشود
خواستم بدانم به خاطر فونت سایت این مشکل پیش آمده یا باید تغییر کند
چون این دیتابیس در نرمفزارهای مختلف و فونتهای مختلف مورد استفاده است
یک سوال داشتم و پیشنهادی
اینکه هر خط چندبار بازبینی میشود؟
و در هر حالت بهتر است در بخش آمار تعداد خطوطی که در کل باید بازبینی شود و آنچه شده و مانده را در هر مرحله بنویسید
ممنون
سلام،
تا جایی که من دقت کردهام، نیم فاصله (Ctrl+Shift+2) کمتر توسط دوستان استفاده میشود.
اگر آموزشی داده شود، بد نیست.
عزّت زیاد
با این نرم افزار میتونید صفحه کلید فارسی رو تنظیم کنید و همه کارکترها رو ببینید
http://uploadboy.com/arwxtba7umfx.html
مثلا ٔ شیفت+ق هست و نیم فاصله شیفت+اسپیس
برای بنده ی حقیر سوالاتی، طی مشارکت در این امرِ نیک پیش آمد که خوشحال می شوم پاسخی برای آن ها بیابم.
این حرکت بسیار پسندیده است، اما آیا دواوین انتخاب شده با مشورت از اساتید بزرگ گزینش شده اند یا خیر، زیرا دیوان هر شاعر بعضاً چند نسخه ی تصحیح شده دارد.
سوال دوم در مورد مشارکت است، با نهایت احترام به مشارکت کنندگان گرامی و عزیز، آیا به نظر شما این کار به تخصص احتیاج ندارد؟
این متون با توجه به استفاده گسترده از فضای اینترنت، مرجع و منبع بسیاری از پژوهش ها قرار خواهد گرفت، کوچکترین خطایی در تصحیح متون باعث بروز فاجعه در امری پژوهشی می شود و خیانتی است به گذشتگان و آیندگان…
برای مثال بعضی از مخاطبان با تکلفات و صعوبات متون آشنا نیستند، متن ادبی سرشار از صناعات ادبی از قبیل بیان و بدیع است، همچنین بلاغت و واژه شناسی و زبانشناسی حداقل نیاز این کار است، بعضی از ابیات عربی هستند و بدون اطلاع از معنا و کارکرد آنها نمی توان تصحیحی اعمال کرد، همچنین بعضی از دوستان متذکر شدند که بهتر است ابیات یک شعر پشت سر هم برای تصحیح ارائه شوند، از این جهت که مصراع اول معمولاً در ارتباط با مصراع دوم صاحب معنا می شود، در مواردی نظیر استفاده شاعر از صنایع ایهام ( تبادر، تناسب، ترجمه و … ) به هیچ وجه قابل تصحیح نیستند.
ذکر این نکته مهم است که در کتب و دواوین چاپی نیز اشتباهات بسیاری صورت می گیرد که این کار می تواند با کمک متخصصین این حوزه به نحوی عالی تصحیح شوند و از نظر مراجع علمی قابلیت اعتبار پیدا کند که قطعا نتیجه ای بسیار متفاوت خواهد داشت…
سلام صدرا،
سخن شما صحیح است اما کو حمایت و کو برنامه ریزی از سمت مسولان فرهنگی کشور؟!
گنجور توسط آقای محمدی بزرگوار و به صورت خودجوش و بدون حمایت از هیچ سازمانی اداره می شود. درآمد حاصل از کمک های مردمی نیز آنقدر ناچیز است که نمی توان توسعه زیادی روی آن انجام داد.
به نظر بنده همین وضعیت گنجور (حتی با همین ایرداتی که شما فرمودید) برای زنده ماندن فرهنگ و ادب پارسی اقدامی بسیار قابل ستایش است.
سلام
نشانههايي كه مربوط به متن اصليه و با ocr درج شده بمونه يا حذف بشه؟ مثل شماره ارجاع پاورقي يا پرانتز تكي
سلام
اینکار خوبه ولی خیلی خیلی زمانبره
بنظرم اگه فایلو بدین افیس ۲۰۱۶ بهتر و زودتر ویرایش میشه تا انجوری
نظرتون چیه البته اگه ویراستار با افیس اشنایی داشته باشه حتی کم؟!!!
یک سوال:
با جملاتی که عددی در کنار آنها می باشد (که احتمالاً مربوط به پانویس ها است) چگونه باید برخورد کرد!؟
مثلاً:
ساغر بده که آید،۴ آبی به روی کارم
در نسخه اصلی عدد ۴ به صورت بالانویس وجود دارد، آیا در هنگام تصحیح عبارت توسط ما، باید عدد را بنویسیم یا خیر؟
@رضا:
اعداد پاورقی باید حذف بشوند.
البته اگر درست یادم باشد در یک پیش پردازش پیش از نهایی کردن خروجیها به لحاظ این که در اشعار فارسی عدد وجود ندارد اعداد را پاک می کنیم.
دو پیشنهاد برای رسمالخط گنجور دارم.
اولی مورد تواقف همگان است: علامت «ها»ی جمع همیشه جدایِ پیوسته نوشته شود و نه جدا و نه پیوسته. مثلاً جمع کتاب نوشته شود کتابها و نه کتاب ها و نیز نه کتابها.
دومی مورد توافق بعضی و مخالفت برخی دیگر است. از جمله پیشنهاد داریوش آشوری است: زمان حال ساده در مصدر های بودن و هستن همیشه جدا و چنین نوشته شود؛ ام، ای، است، ایم، اید و اند. و چنین نوشته شود حتی اگر بعد کلمهی مختوم به حرف صدا دار باشد. مثلاً نوشته شود؛ حسن دانا است. گرچه که خوانده شود؛ حسن داناست. این قاعده در رسمالخط عربی رعایت میشود و هیچ اشکالی هم ایجاد نمیکند. مثلاً تنوین و نون ساکنه که بلافاصله پیش از حروف ی، ر، م، ل، و و یا ن (یرملون) قرار گیرد در آن ادغام میشود و اگر پیش از ب قرار گیرد میم تلفظ میشود ولی شکل نوشتاری خود را حفظ میکند و هیچ عربی که سواد داشته باشد هم آن را اشتباه تلفظ نمیکند.
یک پیشنهاد دیگر: اشعار موزون و مقفای زبان فارسی برای درست خوانده شدن احتیاجی به ویرگول ندارند و این علامت رسمالخط شعر را خشن کرده آن را از شکل میاندازد.
سلام و خسته نباشید
راه اسانتری نیست که بشه اینکار رو کرد؟
تشکر