Домашня » Завантаження вільного програмного забезпечення » Витяг тексту з PDF і файлів зображень

    Витяг тексту з PDF і файлів зображень

    У вас є PDF-документ, з якого ви хотіли б витягти весь текст? А як щодо файлів зображень сканованого документа, який потрібно конвертувати в текст, який можна редагувати? Ось деякі з найбільш поширених проблем, які я бачив на робочому місці при роботі з файлами.

    У цій статті я розповім про кілька різних способів вибору тексту з PDF або зображення. Результати видобування можуть відрізнятися залежно від типу та якості тексту в PDF-файлі або зображенні. Крім того, ваші результати можуть змінюватися залежно від використовуваного вами інструменту, тому краще спробувати скористатися якомога більшою кількістю опцій, щоб отримати найкращі результати.

    Витягніть текст із зображення або PDF

    Найпростіший і найшвидший спосіб почати - скористатися послугою екстрактора PDF-тексту в Інтернеті. Вони, як правило, безкоштовні і можуть дати вам саме те, що ви шукаєте, не маючи нічого встановлювати на ваш комп'ютер. Ось два, які я використовував з дуже хорошими та відмінними результатами:

    ExtractPDF

    ExtractPDF це безкоштовний інструмент для захоплення зображень, тексту і шрифтів з PDF-файлу. Єдиним обмеженням є те, що максимальний розмір файлу PDF становить 10 МБ. Це трохи мало; тому, якщо у вас є великий файл, спробуйте інші способи, наведені нижче. Виберіть файл і натисніть кнопку Надіслати файл кнопки. Результати зазвичай дуже швидкі, і ви повинні побачити попередній перегляд тексту, натиснувши на вкладку Текст.

    Крім того, це хороша додаткова вигода, що вона витягує зображення з PDF-файлу теж, на всякий випадок, якщо вам потрібні ці зображення! В цілому, онлайн інструмент працює відмінно, але я зіткнувся з парою PDF документів, які дають мені смішний вихід. Текст витягується дуже добре, але з якоїсь причини після кожного слова буде перервано рядок! Не велика проблема для короткого файлу PDF, але, безумовно, проблема для файлів з великою кількістю тексту. Якщо це станеться з вами, спробуйте наступний інструмент.

    Онлайн-розпізнавання

    Інтернет-розпізнавання, як правило, має тенденцію працювати для документів, які не правильно конвертувалися з ExtractPDF, так що це гарна ідея, щоб спробувати обидві служби, щоб побачити, які з них дають кращий вихід. Інтернет-розпізнавання також має деякі зручніші функції, які можуть бути корисними для будь-кого з великим файлом PDF, який потребує лише перетворення тексту на кілька сторінок, а не всього документа.

    Перше, що потрібно зробити - це створити безкоштовний обліковий запис. Це трохи дратує, але якщо ви не створюєте безкоштовний обліковий запис, він лише частково перетворить ваш PDF, а не весь документ. Крім того, замість того, щоб завантажувати лише документ розміром 5 МБ, можна завантажувати до 100 МБ на файл із обліковим записом.

    По-перше, виберіть мову, а потім виберіть тип вихідних форматів, які потрібно виконати для перетвореного файлу. У вас є кілька варіантів, і ви можете вибрати більше одного, якщо хочете. Під Багатоканальний документ, можна вибрати Номери сторінок а потім виберіть лише ті сторінки, які потрібно конвертувати. Потім виберіть файл і натисніть Перетворити!

    Після перетворення ви перейдете до розділу Документи (якщо ви ввійшли), де ви зможете побачити, скільки вільних сторінок ви залишили, а також посилання для завантаження конвертованих файлів. Схоже, у вас є лише 25 сторінок на день, тому, якщо вам потрібно більше, вам доведеться трохи почекати або придбати більше сторінок..

    Онлайн-розпізнавання зробило відмінну роботу з перетворення моїх PDF-файлів, оскільки вони могли підтримувати фактичний формат тексту. У своєму тесті я взяв Word doc, який використовував маркери, різні розміри шрифтів і т.д., і перетворив його на PDF. Потім я використовував OCR для перетворення його назад у формат Word, і він був приблизно 95% таким же, як оригінал. Це досить вражаюче для мене.

    Крім того, якщо ви хочете конвертувати зображення в текст, то онлайн-розпізнавання може зробити це так само легко, як витягання тексту з файлів PDF.

    Безкоштовне онлайн-розпізнавання

    Оскільки говорили про зображення для розпізнавання тексту, дозвольте мені згадати ще один хороший сайт, який дуже добре працює на зображеннях. Безкоштовні онлайн OCR був дуже хорошим і дуже точним при витягуванні тексту з моїх тестових зображень. Я зробив кілька фотографій з мого iPhone сторінок з книг, брошур і т.д., і я був здивований, наскільки добре він зміг перетворити текст.

    Виберіть файл і натисніть кнопку "Завантажити". На наступному екрані є кілька варіантів і попередній перегляд зображення. Ви можете обрізати її, якщо ви не хочете, щоб це все OCR. Потім просто натисніть кнопку OCR, а перетворений текст з'явиться під попереднім переглядом зображення. Вона також не має жодних обмежень, що дуже приємно.

    На додаток до онлайнових послуг, є два безкоштовних конвертера PDF, які я хочу згадати, якщо вам потрібен програмний продукт, запущений локально на вашому комп'ютері для виконання переходів. Завдяки онлайновим службам вам завжди знадобиться підключення до Інтернету, і це може бути неможливим для всіх. Однак я помітив, що якість переходів з безкоштовних програм значно гірше, ніж на веб-сайтах.

    A-PDF Текстовий екстрактор

    A-PDF Text Extractor є безкоштовним, що робить досить хорошу роботу з вилучення тексту з PDF-файлів. Після завантаження та встановлення файлу натисніть кнопку Відкрити, щоб вибрати файл PDF. Потім натисніть Вилучити текст, щоб розпочати процес.

    Він попросить вас зберегти файл вихідного тексту, а потім почне витягування. Ви також можете натиснути на Варіант кнопка, яка дозволяє вибирати лише окремі сторінки для вилучення та тип вилучення. Другий варіант цікавий тим, що він витягує текст з різних макетів і варто спробувати всі три, щоб побачити, які з них дають найкращий вихід.

    PDF2Text Пілот

    PDF2Text Пілот виконує роботу з вилучення тексту. У нього немає жодних варіантів; ви просто додаєте файли або папки, перетворюєте і сподіваєтеся на краще. Вона працювала добре на деяких файлах PDF, але для більшості з них були численні проблеми.

    Просто натисніть кнопку Додати файли, а потім клацніть Перетворити. Після завершення конверсії натисніть кнопку Огляд, щоб відкрити файл. Ви пробіг буде змінюватися за допомогою цієї програми, так що не чекайте багато чого.

    Крім того, варто зауважити, що якщо ви перебуваєте в корпоративному середовищі або можете придбати копію Adobe Acrobat з роботи, то дійсно можна отримати набагато кращі результати. Acrobat, очевидно, не є безкоштовним, але він має опції для перетворення PDF у формат Word, Excel і HTML. Він також робить найкращу роботу зі збереження структури оригінального документа та перетворення складного тексту.