Matnni on-layn PDF-faylda tanib olish.


An'anaviy nusxa ko'chirishdan foydalanib, PDF-fayldan matnni chiqarish mumkin emas. Ko'pincha bunday hujjatlarning varaqlari qog'oz varaqlarining skanerlashtirilgan tarkibi hisoblanadi. Bunday fayllarni to'liq tahrirlanadigan matnli ma'lumotlarga aylantirish uchun Optik Belgilar Ovozi (OCR) funksiyasiga ega bo'lgan maxsus dasturlar ishlatiladi.

Bunday echimlarni amalga oshirish juda qiyin va shuning uchun juda ko'p pul sarflanadi. PDF-fayllarni muntazam ravishda tanib olishingiz kerak bo'lsa, tegishli dasturni sotib olish tavsiya etiladi. Kam hollarda, mavjud bo'lgan onlayn xizmatlardan birini shu kabi funktsiyalardan foydalanish mantiqan to'g'ri keladi.

PDF dan onlayn matnni qanday tanib olish mumkin

Tabiiyki, OCR onlayn xizmatlarining to'plamlari to'liq ish stoli echimlariga nisbatan ancha cheklangan. Ammo bunday manbalar bilan bepul yoki nominal ish haqi uchun ishlashingiz mumkin. Eng muhimi, tegishli veb-ilovalar o'zlarining asosiy vazifalari, xususan, matnlarni tanib olish bilan shug'ullanishadi.

1-usul: ABBYY FineReader Online

Xizmatni rivojlantirish kompaniyasi optik hujjat qabul qilish sohasida etakchi kompaniyalardan biri hisoblanadi. Windows va Mac uchun ABBYY FineReader PDF-ni matnga aylantirish va u bilan ishlash uchun kuchli echimdir.

Dasturning veb-hamjamiyati, albatta, uning funktsional imkoniyatlaridan kam. Shunga qaramay, xizmat 190 dan ortiq tilda skanerdan va fotosuratlar matnini taniy olishi mumkin. PDF-fayllarni Word, Excel, va hokazolarga aylantirilishini qo'llab-quvvatlaydi.

ABBYY FineReader Online onlayn xizmati

  1. Asbob bilan ishlashni boshlashdan oldin, saytda hisob yaratish yoki Facebook, Google yoki Microsoft hisob qaydnomangizdan foydalaning.

    Kirish oynasiga o'tish uchun tugmani bosing. "Kirish" yuqori menyudagi satrda.
  2. Kirish yaptıktan so'ng, kerakli PDF-hujjatni FineReader'a tugmasi yordamida import qiling "Fayllarni yuklash".

    Keyin tugmasini bosing "Sahifa raqamlarini tanlang" va matn tanib olish uchun kerakli oraliqni tanlang.
  3. So'ngra, hujjatda mavjud tillarni, olingan fayl formatini tanlang va tugmani bosing "Tanib olish".
  4. Hujjatning davomiyligi hujjatning o'lchamiga bog'liqligini tekshirgandan so'ng, tugallangan faylni faqatgina uning nomiga bosib matnli ma'lumotlarni yuklab olishingiz mumkin.

    Yoki mavjud bulut xizmatlaridan biriga eksport qiling.

Xizmat, ehtimol, rasm va PDF-fayllardagi eng aniq matnni aniqlash algoritmlari bilan ajralib turadi. Afsuski, uning bepul foydalanish oyiga beshta sahifaga cheklangan. Batafsil hajmli hujjatlar bilan ishlash uchun bir yillik obuna sotib olishingiz kerak.

Biroq, agar OCR funktsiyasi juda kam talab etilsa, ABBYY FineReader Online kichik PDF-fayllardan matnni chiqarish uchun ajoyib imkoniyatdir.

2-usul: Bepul Onlayn OCR

Matnni raqamlash uchun oddiy va qulay xizmat. Ro'yxatga olish zarur bo'lmasa, manba soatiga 15 PDF-sahifani aniqlab olishga imkon beradi. Bepul onlayn OCR 46 tilda hujjatlar bilan to'liq ishlaydi va avtorizatsiya qilmasdan, uchta matnli eksport formatlarini qo'llab-quvvatlaydi - DOCX, XLSX va TXT.

Ro'yxatga olish vaqtida foydalanuvchi ko'p sahifali hujjatlarni ishlashi mumkin, ammo ushbu sahifalarning bepul soni 50 ta cheklangan.

Bepul onlayn OCR onlayn xizmati

  1. PDF-dan matnni "mehmon" sifatida tan olish uchun, resursda avtorizatsiya qilinmasdan, saytning asosiy sahifasida tegishli shakldan foydalaning.

    Tugmani bosib kerakli hujjatni tanlang "Fayl", asosiy matn tilini, chiqish formatini ko'rsating, keyin faylni yuklab olishni kutib turing "Convert".
  2. Sayg'allashtirish jarayonining so'ngida tugmasini bosing "Yuklab olish faylini yuklab olish" tugagan hujjatni kompyuterdagi matn bilan saqlash uchun.

Vakolatli foydalanuvchilar uchun amallar ketma-ketligi biroz boshqacha.

  1. Tugmasini bosing "Ro'yxatga olish" yoki "Kirish" yuqori menyudagi satrda, o'z navbatida, Bepul Onlayn OCR hisobini yarating yoki unga kiring.
  2. Tasdiqlash panelida avtorizatsiya qilingandan so'ng, tugmachani bosing va ushlab turing "CTRL", taqdim etilgan ro'yxatdan manba hujjatning ikki tilini tanlang.
  3. PDF-dan matnni chiqarishning boshqa variantlarini ko'rsating va tugmani bosing. "Faylni tanlang" hujjatni xizmatga yuklash.

    Keyinchalik, aniqlashni boshlash uchun, -ni bosing "Convert".
  4. Hujjatni qayta ishlagandan so'ng, tegishli ustundagi chiqish fayl nomi bilan bog'lanishni bosing.

    Ovozni aniqlash natijalari darhol kompyuteringiz xotirasida saqlanadi.

Kichik PDF hujjatidan matnni olib tashlashingiz kerak bo'lsa, yuqorida tavsiflangan asbobdan ishonch bilan foydalanishingiz mumkin. Katta hajmdagi fayllar bilan ishlash uchun, Free Online OCR-da qo'shimcha belgilar sotib olishingiz yoki boshqa echimga murojaat qilishingiz kerak bo'ladi.

Boshqaruv 3: NewOCR

DjVu va PDF kabi deyarli barcha grafik va elektron hujjatlardan matnni olish imkonini beruvchi to'liq bepul OCR xizmati. Resurs tanib olinadigan fayllar hajmiga va soniga cheklovlar qo'ymaydi, ro'yxatdan o'tishni talab qilmaydi va turli xil funktsiyalarni taklif qiladi.

NewOCR 106 ta tilni qo'llab-quvvatlaydi va hatto past sifatli hujjatlarni skanerlashni to'g'ri bajaradi. Fayl sahifasida matn tanib olish uchun maydonni qo'lda tanlash mumkin.

Onlayn xizmat NEWOCR

  1. Shunday qilib, keraksiz xatti-harakatlar qilmasdan, darhol resurs bilan ishlashni boshlashingiz mumkin.

    To'g'ridan-to'g'ri asosiy sahifada ushbu hujjatni saytga olib kelish uchun ariza mavjud. Faylni NewOCR-ga yuklash uchun tugmani foydalaning "Faylni tanlang" bo'limida "Faylni tanlang". Keyin dalada "Tan olish tili (lar)" manba hujjatning bir yoki bir nechta tilini tanlang, so'ngra tugmasini bosing "Yuklab olish + OCR".
  2. O'zingizga ma'qul bo'lgan aniqlash parametrlarini o'rnating, matnni ajratib olish uchun kerakli sahifani tanlang va tugmasini bosing. "OCR".
  3. Biroz pastga siljiting va tugmani toping. Yuklab oling.

    Unga bosing va ochiladigan ro'yxatda yuklab olish uchun kerakli hujjat formatini tanlang. Shundan so'ng, olingan matnli tugagan fayl kompyuteringizga yuklab qo'yiladi.

Ushbu vosita qulay va sifatli barcha belgilarni aniqlaydi. Biroq, import qilingan PDF-hujjatning har bir sahifasining ishlashi mustaqil ravishda ishga tushirilishi va alohida faylda ko'rsatilishi kerak. Siz, albatta, zudlik bilan buxgalteriya natijalarini nusxa ko'chirishingiz va ularni boshqalar bilan birlashtirishingiz mumkin.

Shunga qaramay, yuqoridagi fikrni hisobga olgan holda, NewOCR-dan foydalanib, katta miqdordagi matnni chiqarish juda qiyin. Xuddi shu kichik fayllar bilan xizmat "portlash bilan" ishlaydi.

Boshqaruv 4: OCR.Space

Matnni raqamlash uchun oddiy va tushunarli manba sizga PDF-fayllarni tanib olish va natijani TXT fayliga chiqarish imkonini beradi. Sahifalar soniga cheklov yo'q. Bitta cheklash - kirish belgisining o'lchami 5 megabaytdan oshmasligi.

OCR.Space onlayn xizmati

  1. Asbob bilan ishlash uchun ro'yxatdan o'tish shart emas.

    Yuqoridagi linkni bosib, PDF hujjatni veb-saytga kompyuteringizdan buton orqali yuklang "Faylni tanlang" yoki tarmoqdan - mos yozuvlar yo'li bilan.
  2. Ochilgan ro'yxatda "OCR tilini tanlang" import qilingan hujjatning tilini tanlang.

    Keyin tugmani bosish orqali matnni aniqlash jarayonini boshlang. "OCR boshlang!".
  3. Fayllarni qayta ishlash yakunida, natijaga qarang "OCR natijasi" va tugmasini bosing Yuklab olingtugallangan TXT hujjatini yuklab olish uchun.

Agar siz PDF-dan matnni ajratib olishni istasangiz va oxirgi formatlash hech qanday ahamiyatga ega emas, OCR.Space - yaxshi tanlov. Bitta hujjat "monolizual" bo'lishi kerak, chunki xizmatda bir vaqtning o'zida ikki yoki undan ortiq tilni tan olish ta'minlanmaydi.

Shuningdek, qarang: FineReader bepul analoglari

Maqolada taqdim etilgan onlayn vositalarni baholashda ABBYY-dan FineReader Online OCR funktsiyasini eng to'g'ri va to'g'ri bajarilishini ta'kidlash kerak. Matnni aniqlashning maksimal aniqligi siz uchun muhim bo'lsa, ushbu variantni alohida ko'rib chiqing. Lekin buning uchun to'lash uchun, ehtimol, ham kerak.

Agar siz kichik raqamlarni raqamli holga keltirsangiz va siz o'zingizning xizmatingizdagi xatolarni tuzatishga tayyor bo'lsangiz, NewOCR, OCR.Space yoki Free Online OCR dan foydalanish tavsiya etiladi.