پیشتر اشاره کرده بودم که قصد دارم به کمک OCR دامنهٔ دادههای موجود در گنجور را گسترش دهم و کار را هم با اضافه کردن کتاب کوچکی از سنایی غزنوی، قسمتی از غزلیات بیدل دهلوی و چند قصیده از قاآنی شروع کرده بودم.
قبلاً هم گفته بودم که اضافه کردن اشعار با استفاده از OCR، غیر از امکانات و زمانی که برای اسکن و اجرای پردازش OCR روی ورودیها و دریافت خروجی نیاز دارد نیاز به یک کار چشمی پر زحمت دارد تا دقت خروجیها به سطح قابل قبول برسد. گفته بودم که برنامهای دارم برای آن که علاقمندان گنجور را در این کار به همیاری دعوت کنم و با استفاده از مشارکت آنها سرعت و دقت گسترش دامنهٔ دادهها افزایش یابد.
الان، طرح سادهای آماده کردهام برای آن که به کمک آن این امر را محقق کنم. علاقمندان با مراجعه به این نشانی میتوانند با بازبینی خروجیهای OCR به گسترش دامنهٔ دادههای گنجور کمک کنند. سیستم طراحی شده بر اساس تعداد رأیهای کاربران به متون کار میکند و نهایتاً با غربال پررأیترین گزینهها خروجیها را تولید خواهم کرد. اگر اشتباه کردید: اشتباه تایپی یا انتخاب اشتباه، نگران نباشید! علاقمندان دیگر نیز خروجیها را میبینند و اشتباه شما را با رأیهایشان به متون درستتر تصحیح میکنند. فقط لطفاً در صورتی که صفحهکلید فارسی ندارید در این کار مشارکت نکنید! ورود متون به صورت فارگلیسی هیچ کمکی نمیکند.
فعلاً خروجیهای باقیماندهٔ جلد اول غزلیات بیدل دهلوی در این سیستم در دسترس قرار دارند و به زودی باقیماندهٔ دیوان قاآنی را نیز در این سیستم در معرض بازبینی علاقمندان قرار میدهم.
خیلی عالیه
حتما کمکتون میکنم
ايده بسيار جالبي بود. لذت بردم!
موفق باشيد.
خیلی عالیه
فقط به نظر میاد در خروجی نهایی کاراکترهای zwnj اضافی زیاد داشته باشیم.
با توجه به تیز بینی و استعدادی که در شما سراغ دارم احتمال زیاد فکرش رو کردی ولی کار از محکم کاری عیب نمیکنه گفتم یادآوری کرده باشم.
در ضمن اگر باز هم از این ایده های ناب به ذهنت رسید میتونی روی کمک من توی برنامه نویسیش حساب کنی.
سلام خیلی جالب هست.
این اوسی ار انلاین هست؟ اگر هست ایا رایگان هست؟ امکانش هست بیشتر توضیح بدهید؟
شاد باشید
سلام
خیلی عالیه فقط اگر کلی تر باشه که هم تصحیح انجام بشه هم لذت خواندن یک حکایت یا غزل هم بهش اضافه بشه واقعاً عالی میشه یا حداقل به صورت ابیات پشت سر هم باشه . خواندن تنها یک مصرع از یک شعر خیلی لذت بخش نیست حداقل به صورت بیت باشه و تصادفی هم نباشه و پشت سر هم باشه .
خوش باشی
چشم منم حتما کمک میکنم
دمتون گرم
سلام
تمومی نداره، تا اونجایی که در توان داشتم کمک کردم من تخصصم طراحی.
خوشحال میشم کمکی کنم
@حامد:
ترتیب مصرعها خیلی مشخص نیست، مثلاً بعضیهاشون (پشت سر هم) ستون اول یه غزلن و بعضیها پشت سر همن. باید خروجیها نهایتاً دوباره سرهمبندی بشن تا معلوم بشه. این که چند تا با هم باشن هم خیلی عملی نیست. در هر حال اگه کار بازبینی با سرعت کافی پیش بره به زودی خروجی همین کار روی سایت قرار میگیره و میشه به طور کامل خوندشون.
ممنون از لطف سایر دوستان.
به نظر من بهتره برای تشویق و ترغیب علاقه مندان سیستم کاربری طراحی شود که بتواند میزان مشارکت افراد را نشان دهد.
@اتابک:
خوب، کسانی که این کار رو انجام میدن نیاز به تشویق ندارن، از نتیجۀ نهایی همه استفاده میکنن، خصوصاً اونهایی که به ادبیات فارسی علاقۀ ویژه دارن. تا الان هم میزان مشارکت کم نبوده. احتمالاً کمی بیشتر که بگذره یه آماری در این مورد ارائه میدم.
خيلي خوشم اومد
واقعا عاليه
ايده خوبي هم هست روش كار گروهي
حتما كمك ميكنم
من علاقه ام شعر هست حتما كمك ميكنم
سلام بر شما
من از لینک سایت p30download متوجه شدم که در سایت گزیر این خبر قرار داده شده و تا اونجا که تونستم اشعار رو تصحیح یا تایید کردم.
ایده زیبا و جالبیست.
در وبلاگم هم قرار دادم تا هر کس تونست تصحیح رو انجام بده.
با سپاس و احترام
درود بر شما
شاد باشید و پیروز
به به.چه عالی.
سلام
زیر و زبر و پیش رو هم وارد کنیم؟
ضمنا در خروجی های OCR از کاراکتر ۰۶C0 (ۀ) استفاده شده که در کیبورد فارسی استاندارد ۹۱۴۷ جایی نداره. من به طور دستی اونها رو به ترکیب حرف ه و همزه بالا ( ٔ) به اینصورت هٔ تغییر میدادم که فکر میکنم به طور خودکار از جانب شما قابل اجرا باشه.
@هادی:
در مورد کاراکتر «ۀ»، نهایتاً (وقت ارسال به سایت) تمام موارد این کاراکتر و همینطور ترکیب «هی» رو با ترکیب ه و همزه بالا جایگزین میکنم. توی سری اول مجموعه (بیدل، جلد اول) به جای این کاراکتر از کاراکتر ة استفاده شده که مناسب فونتهای فارسی بوده که این رو هم نهایتاً با همون ترکیب جایگزین میکنم.
در سایر موارد (زیر و زبر و …) سلیقهٔ خودتون مهمه، من فکر کردم اگه یه سری قانون بذارم برای نحوهٔ وارد کردن متون هم کار سخت میشه و هم این که خیلی از دوستانی که با صفحهکلید فارسی آشنایی کامل ندارن (کاراکترهای کم کاربرد رو نمیشناسن) به نظرشون کار سخت میاد و یا خیرخواهانه برای این که احتمالاً خرابکاری نکنن بازبینی نمیکنن و این ضررش خیلی بیشتر از فایدهشه. بنابراین فکر کردم اگه در این مورد سختگیری نشه در کل بهتره.
از بقیهٔ دوستانی که در این کار مشارکت میکنن صمیمانه ممنونم.
سلام و خسته نباشید. ممنون هم برای پشتکارتون برای اسکن کردن شعرها و دنبال کردن این کار عظیم، و هم برای اینکه ما رو هم در قسمتی از این پروژه سهیم کردید. حتما کمکتون میکنم و دوستانم رو هم با این پروژه آشنا می کنم.
راستی چرا برای بعضی از مصراع ها دو خروجی OCR وجود داره؟ از دو الگوریتم مختلف استفاده شده یا به دلیل احتمال وجود گروه بندی های متفاوت بین دو واژه هست؟
@مستانه:
ممنون از لطف دائم شما.
نه، فقط یه خروجی OCR داریم، باقی موارد تصحیحات کاربرانه: سیستمش اینجوریه که اگه یه موردی رو کسی تا حالا بازبینی نکرده باشه یا خروجی OCRش در نظر بازبینهای قبلی درست بوده باشه فقط براش یه گزینه هست. حالا اگه کسی بیاد تصحیح کنه یا طور دیگهای تایپ کنه، نظرش اضافه میشه. به طور پیشفرض اونی بالاتر قرار میگیره که تعداد رأیهاش بیشتر باشه (بیشتر کلیک شده باشه) و بین دوتا که هر دو هم رأی هستن خروجی OCR پایینتر قرار میگیره چون فرض بر اینه که کاربر نظرش ارجحه بر خروجی OCR که احتمال خطاش بیشتره. توی اون جعبۀ متنی هم ارجحترین گزینه قرار میگیره (بالاترین دکمه) و به همین دلیل زدن Enter وقتی که جعبۀ متنی فوکوس داره با کلیک روی بالاترین دکمه همسانه و رأی اون متن رو افزایش میده.
سیستم خیلی خوبیه
ای ول
عالیه
من هم کمک می کنم 🙂
سلام
با تشکر از این ایده ی بسیار عالی تون.
فقط ای کاش که یه آماری هم در این صفحه قرار می دادید که مثلا چند نفر تا حالا در این طرح شرکت کردن یا تعداد مصرع های تصحیح شده تا حالا چندتا بوده. من که اگه آمار رو ببینم دلگرم تر می شم و بیشتر کار میکنم، بقیه رو نمی دونم.
حمیدرضا جان خسته نباشی
منظور من ایجاد پروفایل برای کاربان هست تا هر کاربر بتواند در یک فضای سالم رقابتی میزان همکاری خود را نمایش دهد. وجد یک فضای رقابت سالم خود به نوعی تشویق کاربران است.
ممنون از لطف همهٔ دوستان.
در مورد آمار سعی میکنم در فرصت مناسب یه صفحۀ مناسبتر بسازم. اما دوستانی که علاقه دارن آمار مشارکتها رو بدونن از این صفحه استفاده کنن که جلوی هر تاریخ میلادی تعداد بازبینیهای انجام شده رو نوشته:
http://v.ganjoor.net/verification_results/stats
در مرحلهٔ اول حدود پنجاه هزار تیکه تصویر برای تصحیح در دسترس قرار گرفته که با احتساب بازدیدهای تکراری از بعضی تصاویر تا به حال چیزی حدود نصف کل تصاویر مرحلهٔ اول حداقل یک بار بازبینی شدن.
با سلام، مدتها بود كه اين ايده و آرزوي انجام آن براي متون فارسي در دلم بود.اما نتوانستم فرصتي براي پرداختن به آن فراهم كنم. بسيار خوشحال شدم از اينكه ديدم هموطني به زيبايي و شايستگي اين كار را انجام داده است! اميدوارم تلاش شما الگوي بسياري از سايت هاي آنلاين اطلاع رساني دولتي و غيره قرار بگيرد.برايتان آرزوي موفقيت دارم.
ببخشيد براي وارد كردن تشديد در متن بايد از چه كليدي استفاده كنيم؟
ظاهرا بعضي ها به جاي تصحيح توي اشعار خرابكاري مي كنند. بهتر است امكاني اضافه شود كه روي اصلاحات قبلي گزارش خرابكاري داده شود . آدرس ايميل بفرماييد نمونه برايتان ارسال كنم.
@مریم:
ممنون از لطف شما.
برای تماس میتونید از نشانی ganjoor@ganjoor.net استفاده کنید.
تشدید توی صفحهکلید فارسی مایکروسافت (ویندوز XP) با کلید ترکیبی Shift+F زده میشه.
من واقعا از زحمات شما بسیار سپاسگذار هستم
اما یک سوال داشتم چرا اشعار برای دانش پژوهان و نویسنده ها بصورت word چاپ نمیشود؟؟؟؟
تا سریعتر از اشعار در جاهایی که دوست داریم استفاده کنیم؟؟؟؟
مثلا خودمان با تغییر دادن فونت ها در جاهایی که دوست داریم استفاده کنیم
مرسی از کار بزرگ و عجیب شما که ارزش آن از هزاران چاه نفت بیشتر هست.
بسیار جلبی و دیدنی
لینک شدی ایرانی با غیرت
با سپاس
حتما کمک میکنم.خیلی زحمت کشیدید
خدا قوت
درود بر شما
و سپاس فراوان برای این حرکت شایسته.
حتما کمک می کنم
این بازبینی OCR ـها شده یکی از کارهای روزمره من در اینترنت … واقعا از این کار لذت می برم…
خیلی ممنون به خاطر این ایده جالبتون و یک تشکر هم از تمام دوستانی که این سایت و این ایده را حمایت می کنند.
با درود بر شما
واقعاً کار ارزشمند و گرانقدری رو شروع نمودید برای شما و همه همکارانتان آرزوی موفقیت و بهروزی دارم.امیدوارم که با انجام و گسترش روزافزون اینگونه کارها ی فرهنگی شایسته و در خور تقدیر، نسل امروز جامعه ایرانی هر چه بیشتر با غنای فرهنگ این مرز و بوم و گذشتگانش آشنا گردد.
با سپاس از شما و آرزوی موفقیتتان
شاد باشید
من نمي دانم چگونه بايد كمك كنم درخواست شما گويا و رسا نيست و منظور شما را متوجه نمي شوم .
خوب بود با يك مثال ساده توضيح مي داديد .
ممنون از لطف همهٔ دوستان
@سودابه: اینجا را ببینید:
http://www.gozir.com/1389/03/17/vganjoor
سلام.
خيلي عاليه . خدا خيرتون مبده . حتماً كمكتون مي كنيم
سلام
اگر بتونين با مذاكره با فرومهايي كه علاقهمندن در قسمت log in همين صفحه را به عنوان Captcha اضافه كنين كه هر كس خواست وارد سايت بشه يك مصراع را تصحيح كنه فكر كنم آمار زياد بشه. الان سايتهاي زيادي (خارجي) اين كار را انجام ميدن به عنوان مثال gigapedia و سايتهاي ديگهاي كه Captcha وروديش شبيه اين سايته. الان پروژههاي زيادي براي ocr كتابهاي لاتين از اين طريق در حال انجامه.
بسيار عالي
هميشه شاد باشيد
google transliteration can be used by those who do not have a Farsi keyboard
الحق و الانصاف که به این میگن Optimization !!!
”
سلام
اگر بتونین با مذاکره با فرومهایی که علاقهمندن در قسمت log in همین صفحه را به عنوان Captcha اضافه کنین که هر کس خواست وارد سایت بشه یک مصراع را تصحیح کنه فکر کنم آمار زیاد بشه. الان سایتهای زیادی (خارجی) این کار را انجام میدن به عنوان مثال gigapedia و سایتهای دیگهای که Captcha ورودیش شبیه این سایته. الان پروژههای زیادی برای ocr کتابهای لاتین از این طریق در حال انجامه.
”
یه ۲۰۰ مصراعی تصحیح نمودیم تا بعد ببینیم خدا چی می خواد….. D:
خیلی عالیه!
منم کمک می کنم!
🙂
دستتون درد نکنه
واقعا شاهکار کردین
واقعاً با اين سايتتون گل كاشتيد. دستتون درد نكنه. اميدوارم هر روز موفق تر از روز پيش باشيد. خوشحال ميشم اگه بتونم كمكي كنم.
اوه آقا من پایه ام! الان کل ابیات رو جواب میدم.
اگر بیش از این طرح هم کمکی از دستم بر میاد ایمیل بزنید! تو کار ویراستاری و این چیزا هم هستم
ضمن تشکر مجدد از دوستانی که در این کار مشارکت میکنن،
در مورد ایدهای که شبیه ReCaptcha هستش، من تصور نمیکنم تعداد دریافت کپچاهای سایتهای ایرانی در کل در حدی باشه که بشه در این مورد بهش تکیه کرد، بنابراین در مقطع فعلی فکر نمیکنم به درد کار ما بخوره، هر چند با توجه به این که پیادهسازیش نسبتاً سادهست احتمال میدم در فرصتی که پیش بیاد چنین امکانی رو هم اضافه کنم.
در مورد دوستی که فایل Word خواسته بودن، برنامهٔ گنجور رومیزی هست و پایگاه دادههاش هم در دسترسه، متأسفانه من وقت و امکانات لازم برای تولید خروجیهای سفارشی رو ندارم و اگر دوستی کاربرد خاصی براش داره این جور خروجیها زحمتش به عهدهٔ خودشه (ابزارها و مواد اولیهٔ لازم در اختیار هست).
دوستی که در مورد خرابکاری گزارش داده بودن، اون مورد خاص حذف شد، اما همونطور که خدمت ایشون گفتم فکر میکنم در تصحیحهای آینده باید یه دکمهٔ گزارش خرابکاری هم بگذاریم. در هر حال، در حالت ایدهآل چون فرض بر اینه که دوستان زیادی شعرها رو بازبینی میکنن باید این موارد خود به خود رأی کمی بگیرن و دور انتخاب نهایی برای متن درست حذف بشن.
در مورد سیستم مدیریت کاربران و … که دوستی اشاره کرده بودن، خوب خوبه اما پیچیدگی سیستم رو افزایش میده و در ضمن کار من هم زیاد میشه که احتمالاً بهتره این کار و وقت صرف قسمتهای دیگهٔ سایت و گنجور رومیزی بشه.
دست مريزاد خدا قوت
طرح عالی است. حتما همکاری میکنم. مخصوصا اینکه خیلی هم لذتبخش است.
موفق باشید.