Scan va OCR

Hayrli kun.

Ehtimol, har birimiz qog'oz hujjatni elektron shaklda tarjima qilishimiz kerak bo'lsa, bu vazifa bilan duch kelishimiz mumkin. Bu ayniqsa, o'qish, hujjat bilan ishlash, elektron lug'atlarni ishlatadigan matnlarni tarjima qilish va h.k.

Ushbu maqolada men ushbu jarayonning ba'zi asoslarini aytib o'tmoqchiman. Umuman olganda, skanerlash va matnlarni tanib olish juda ko'p vaqt talab qiladi, chunki aksariyat operatsiyalar qo'lda bajarilishi kerak. Biz nimani, qanday qilib va ​​nimani tushunishga harakat qilamiz.

Hamma ham darhol bir narsani tushunmaydi. Skanerdan so'ng (brauzerdagi barcha sahifalarni joylashtirish) siz BMP, JPG, PNG, GIF formatidagi rasmlarga ega bo'lasiz (boshqa formatlar ham bo'lishi mumkin). Ya'ni, bu rasmdan siz matnni olishingiz kerak - bu protsedura tan olinadi. Ushbu tartibda va quyida taqdim etiladi.

Kontent

  • 1. Ko'rish va tanib olish uchun nima kerak?
  • 2. Matn terish variantlari
  • 3. Hujjat matnini tan olish
    • 3.1 Matn
    • 3.2 Rasmlar
    • 3.3 jadvallar
    • 3.4 keraksiz ma'lumotlar
  • 4. PDF / DJVU fayllarini tanib olish
  • 5. Ish natijalarini tekshirish va saqlashda xatolik

1. Ko'rish va tanib olish uchun nima kerak?

1) Brauzer

Chop etilgan hujjatlarni matn shaklida tarjima qilish uchun oldin brauzer kerak va shunga mos ravishda "mahalliy" dastur va drayvlar kerak. Ular bilan siz hujjatni skanerlashingiz va uni keyingi ishlov berish uchun saqlashingiz mumkin.

Boshqa analoglardan foydalanishingiz mumkin, lekin brauzer bilan birga kelgan dasturiy ta'minot odatda tezroq ishlaydi va boshqa variantlar mavjud.

Qaysi turdagi skanerlarga bog'liqligingiz - ishlash tezligi sezilarli darajada farq qilishi mumkin. 10 soniyadan keyin bir varaqdan rasm olishingiz mumkin skanerlar mavjud, ular 30 sekund ichida qabul qilinadi. Agar 200-300 varaqdagi kitobni skanerlasangiz - vaqtning bir necha marta necha marta o'zgarishini hisoblash qiyin emas.

2) tan olinishi uchun dastur

Bizning maqolamizda sizga ABBYY FineReader hujjatlarini ko'rish va tanib olish bo'yicha eng yaxshi dasturlardan birida ko'rsataman. Chunki dastur to'lanadi, keyin darhol boshqa biriga link beraman - uning Cunei Formasining bepul analogi. To'g'ri, men FineReader har tomonlama g'olib bo'lishiga qarab ularni taqqoslamagan bo'lardim, men uni sinab ko'rishni tavsiya qilaman.

ABBYY FineReader 11

Rasmiy sayt: //www.abbyy.ru/

Ushbu turdagi eng yaxshi dasturlardan biri. Rasmdagi matnni tan olish uchun mo'ljallangan. Ko'p imkoniyat va xususiyatlar yaratilgan. U bir nechta shriftlarni ajrata oladi, hatto qo'lda yozilgan nusxalarni ham qo'llab-quvvatlaydi (garchi uni shaxsan sinab ko'rmagan bo'lsam-da, agar sizda mukammal kalligrafiy qo'l yozuvi bo'lmasa, qo'lda yozilgan matnni tanimaslik yaxshi deb o'ylayman). U bilan ishlash haqida ko'proq ma'lumot quyida muhokama qilinadi. Shuningdek, ushbu maqola dasturning 11-versiyasidagi ishni qamrab olishi haqida ham eslatib o'tamiz.

Odatda, ABBYY FineReaderning turli xil versiyalari bir-biridan farq qilmaydi. Siz osongina boshqasini ayta olasiz. Asosiy farqlar qulaylik, dasturning tezligi va uning qobiliyatlari bo'lishi mumkin. Misol uchun, avvalgi versiyalarda PDF hujjati va DJVU-ni ochishdan voz kechilmoqda ...

3) tekshiradigan hujjatlar

Ha, shuning uchun men hujjatlarni alohida ustunga chiqarishni qaror qildim. Ko'p holatlarda har qanday darsliklar, gazetalar, maqolalar, jurnallar va boshqalarni skanerlang talab qilingan kitoblar va adabiyotlar. Nima qilmoqchiman? Shaxsiy tajribamdan shuni aytishim mumkinki, siz tekshirmoqchi bo'lgan narsa - allaqachon tarmoqda bo'lishi mumkin! Tarmoqda skaner qilingan bir kitobni yoki boshqa kitobni topganimda necha marta vaqtni tejadim. Faqat matnni hujjatga nusxa ko'chirishim kerak edi.

Ushbu oddiy tavsiyalardan - siz biror narsani tekshirmaguningizdan oldin, kimdir allaqachon uni skanerlaganligini tekshiring va vaqtni sarflashingizga hojat yo'q.

2. Matn terish variantlari

Bu erda brauzer uchun drayvlaringiz, u bilan birga kelgan dasturlardan bahramand bo'lmayman, chunki barcha brauzer modellari farq qiladi, dasturiy ta'minot hamma joyda ham farq qiladi va taxmin qilish va operatsiyani qanday bajarish mumkinligini aniq ko'rsatmaydi.

Biroq barcha brauzerlarda ishingizning tezligi va sifatiga sezilarli ta'sir ko'rsatadigan bir xil sozlamalar mavjud. Bu yerda men bu erda gaplashaman. Men tartibda ro'yxat beraman.

1) Internet saytlarini sifati - DPI

Birinchidan, 300 DPIdan kam bo'lmagan variantlarda skanerlash sifati sozlang. Mumkin bo'lsa, hatto bir oz ko'proq qo'yish tavsiya etiladi. DPI ko'rsatkichi qanchalik baland bo'lsa, rasmingiz aniqroq ko'rinadi va shuning uchun keyingi ishlov tezroq amalga oshiriladi. Bundan tashqari, skanerlash sifati qanchalik yuqori bo'lsa, siz undan keyin tuzatishga to'g'ri keladigan kamroq xatolar.

Eng yaxshi variant odatda 300-400 dpi beradi.

2) xromatsizlik

Ushbu parametr ko'rish vaqtini sezilarli darajada ta'sir qiladi (shu bilan birga, DPI ham ta'sir qiladi, lekin ular juda kuchli va faqat foydalanuvchi yuqori qiymatlarni o'rnatganida).

Odatda uch rejim mavjud:

- qora va oq ranglar (tekis matn uchun mukammal);

- kulrang (jadvallar va rasmlar bilan matn uchun mos);

- rang (rangli jurnallar, kitoblar, umuman, ranglar muhim bo'lgan hujjatlar).

Ko'rib chiqish vaqti odatda rang tanloviga bog'liq. Axir, agar sizda katta hujjat bo'lsa, sahifadagi qo'shimcha 5-10 soniya ham yaxshi vaqtga olib keladi ...

3) Rasmlar

Hujjatni faqat skanerlash orqali emas, balki uning rasmini olishingiz mumkin. Odatda, bu holatda sizda boshqa muammolar ham bo'lishi mumkin: tasvir buzilishi, bulaniq. Shuning uchun qabul qilingan matnni yanada ko'proq tahrir qilish va qayta ishlash talab qilinishi mumkin. Shaxsan men ushbu biznes uchun kameralardan foydalanishni tavsiya etmayman.

Shuni ta'kidlash kerakki, har bir bunday hujjat tan olinmaydi skanerlash sifati juda past bo'lishi mumkin ...

3. Hujjat matnini tan olish

Biz sizning orzu qilingan sahifalarni sizning skanerizgan deb hisoblaymiz. Ko'pincha ular formatlar: tif, bmb, jpg, png. Umuman, ABBYY FineReader uchun - bu juda muhim emas ...

Rasmni ABBYY FineReader-da ochganingizdan so'ng, dastur, qoida tariqasida, mashinada joylarni tanlaydi va taniydi. Lekin ba'zida u noto'g'ri ishlaydi. Buning uchun kerakli joylarni qo'lda tanlashni ko'rib chiqamiz.

Bu juda muhim! Dasturda hujjat ochilgandan so'ng, darhol deraza oldida manba hujjati ko'rsatiladi va u erda siz turli sohalarni ta'kidlaysiz. "Ovozni aniqlash" tugmachasini bosgandan so'ng, o'ngdagi oynadagi dastur sizga tugagan matnni keltiradi. Tanib olingandan keyin, shu bilan bir xil FineReaderdagi xatolar matnini tekshirish tavsiya etiladi.

3.1 Matn

Bu maydon matnni ta'kidlash uchun ishlatiladi. Rasmlar va jadvallar bundan mustasno. Noyob va noodatiy shriftlarni qo'lda kiritish kerak bo'ladi ...

Matn maydonini tanlash uchun, FineReader ustidagi panelga e'tibor bering. "T" tugmasi mavjud (pastdagi ekran tasvirini, sichqoncha ko'rsatgichi faqat shu tugmachada joylashgan). Unga bosing, keyin quyidagi rasmda matnning to'g'ri burchakli qismini tanlang. Aytgancha, ayrim hollarda, siz 2-3 ta matnli bloklarni, ba'zida 10-12 ta matnli bloklarni yaratishingiz kerak Matnni formatlash boshqacha bo'lishi mumkin va butun maydonni bitta to'rtburchak bilan tanlamang.

Tasvirlar matn maydoniga tushmasligi kerak. Kelajakda sizni ko'p vaqt tejaydi ...

3.2 Rasmlar

Kam sifatli yoki noodatiy shrift tufayli tasvirni va tanib olish qiyin bo'lgan joylarni ta'kidlash uchun ishlatiladi.

Quyidagi ekran tasvirida sichqonchani ko'rsatgichi «rasm» maydonini tanlash uchun ishlatiladigan tugmachada joylashgan. Aytgancha, sahifaning mutlaqo biron-bir qismi bu sohada tanlanishi mumkin va FineReader uni hujjatga an'anaviy rasm sifatida kiritadi. Ya'ni faqat "ahmoq" nusxa ko'chiradi ...

Odatda, bu maydon noto'g'ri skanerlangan jadvallarni ko'rsatish uchun ishlatiladi, standart bo'lmagan matn va shriftni, rasmlarni o'zlari belgilash uchun ishlatiladi.

3.3 jadvallar

Quyidagi skrinshot jadvallarni ko'rsatish uchun tugmani ko'rsatadi. Umuman olganda, men uni juda kamdan-kam hollarda ishlataman. Haqiqat shundaki, siz odatdagidek jadvalning har bir satrini (aslida) chizishingiz va dasturning nima va qandayligini ko'rsatishingiz kerak. Jadval kichik bo'lsa va juda yaxshi bo'lmasa, ushbu maqsadlar uchun "rasm" maydonidan foydalanishni tavsiya etaman. Shunday qilib, juda ko'p vaqt tejash va so'ngra Word-da rasmni tezda jadvalga asoslab berishingiz mumkin.

3.4 keraksiz ma'lumotlar

Shuni ta'kidlash kerak. Ba'zan sahifada matnni tanqid qilishni qiyinlashtiradigan keraksiz elementlar mavjud yoki siz xohlagan joyni tanlamaysiz. Ular "o'chirish moslamasi" yordamida o'chirilishi mumkin.

Buning uchun rasm tartibga solish rejimiga o'ting.

Silgi vositasini tanlang va kiruvchi maydonni tanlang. U o'chiriladi va uning o'rnida oq qog'oz bo'ladi.

Aytgancha, ushbu variantni iloji boricha tezroq foydalanishni maslahat beraman. Siz tanlagan barcha matnlarni sinab ko'ring, bu erda sizga matn bo'laklari kerak emas yoki keraksiz fikrlar, bulaniqlik, burilishlar - silgi bilan yo'q qiling. Bu tanlov tufayli tezroq bo'ladi!

4. PDF / DJVU fayllarini tanib olish

Umuman olganda, ushbu tanib olish formati boshqalardan farq qilmaydi - ya'ni, U bilan rasmlarda bo'lgani kabi ishlashingiz mumkin. Dastur PDF / DJVU fayllarini ochmasangiz, versiya 11 ga yangilang.

Biroz maslahat. Hujjatni FineReader-da ochganingizdan so'ng - u hujjatni avtomatik ravishda taniy boshlaydi. Ko'pincha PDF / DJVU fayllarida sahifaning muayyan maydoni hujjat bo'ylab kerak emas! Bunday maydonlarni barcha sahifalarda o'chirish uchun quyidagilarni bajaring:

1. Rasmni tahrirlash bo'limiga o'ting.

2. "trimming" parametrini yoqing.

3. Barcha sahifalarda kerakli maydonni tanlang.

4. Barcha sahifalarga amal qiling va trim-ni bosing.

5. Ish natijalarini tekshirish va saqlashda xatolik

Hamma joylar tanlanganidan keyin hali ham muammolar bo'lishi mumkin, deb o'ylashadi, keyin tan olgan - uni qabul qiling va saqlab qo'ying ... U erda yo'q edi!

Birinchidan, biz hujjatni tekshirishimiz kerak!

Buni yoqish uchun, tanilganidan so'ng, o'ngdagi oynada "tekshirish" tugmasi paydo bo'ladi, quyidagi ekran tasvirini ko'ring. Dasturni bosgandan so'ng, FineReader dasturi sizda xato mavjud bo'lgan joylarni ko'rsatib beradi va u ishonchli tarzda bir yoki bir nechta belgini aniqlay olmaydi. Siz faqat tanlovga ega bo'lishingiz yoki dasturning fikriga qo'shilishingiz yoki o'zingizning belgingizga kiritishingiz kerak bo'ladi.

Aytgancha, taxminan yarmida, taxminan, dastur sizga to'g'ri tayyorlangan so'zni taklif qiladi - kerakli variantni tanlash uchun sichqonchani ishlatishingiz kerak.

Ikkinchidan, tekshirilgandan keyin siz o'zingizning ishingiz natijasini saqlab qoladigan formatni tanlashingiz kerak.

Bu erda FineReader siz uchun eng qulay nuqtani beradi: siz ma'lumotni Word-ga bir-biridan ko'chirishingiz mumkin va uni o'nlab formatlardan biriga saqlashingiz mumkin. Men yana bir muhim jihatni alohida ta'kidlamoqchiman. Siz tanlagan formatga qaraganda, replikatsiya turini tanlash muhimdir! Eng qiziqarli variantlarni ko'rib chiqing ...

To'liq nusxa

Tanilgan hujjatdagi sahifada tanlagan barcha hududlar manba hujjatiga mos keladi. Matnni formatlashni yo'qotmaslik siz uchun muhim bo'lgan juda qulay variant. Aytgancha, shriftlar asl nusxaga juda o'xshash bo'ladi. Hujjatni Wordga o'tkazish uchun ushbu variantni tavsiya qilaman, u erda u erda ishlashni davom ettirish.

Tahrirlanadigan nusxa

Ushbu parametr yaxshi, chunki siz allaqachon matnni formatlashtirilgan versiyasini olasiz. Ya'ni Asl hujjatda bo'lishi mumkin bo'lgan "kilometr" chizig'ining chegarasi - siz uchrasha olmaysiz. Ma'lumotni sezilarli darajada o'zgartirganda foydali variant.

To'g'ri, siz dizayn, shriftlar, chuqurchalar uslubini saqlab qolishingiz muhimmi, tanlamaysiz. Ba'zan, tanib olish juda muvaffaqiyatli bo'lmaganda - o'zgartirilgan formatlash tufayli hujjatingiz «chayqalishi» mumkin. Bunday holda aniq nusxani tanlash tavsiya etiladi.

Oddiy matn

Har bir narsadan tashqari faqat matnga muhtoj bo'lganlar uchun imkoniyat. Suratlarsiz va jadvalsiz hujjatlar uchun javob beradi.

Bu hujjatni skanerlash va aniqlash maqolasini nihoyasiga yetkazadi. Umid qilamanki, bu oddiy maslahatlar yordamida muammolarni hal qilishingiz mumkin ...

Omad tilaymiz!

Videoni tomosha qiling: 6 Best Pen Scanners 2018 (Noyabr 2024).