Як скопіювати текст з PDF під час збереження форматування?

PDF, повсюдний формат документа, відмінно підходить для спільного використання документів, зберігаючи шрифти, зображення та загальний макет на різних платформах. Проте є простий спосіб зберегти те саме форматування при копіюванні та вставці тексту з документа?

Сьогоднішня сесія запитань та відповідей приходить до нас люб'язно SuperUser - підрозділ Stack Exchange, групування веб-сайтів із запитаннями та відповідями на рівні спільноти..

Питання

Читач SuperUser Colen шукає спосіб вилучення тексту з PDF-файлів, зберігаючи при цьому форматування:

Коли я копію текст з PDF-файлу і в текстовому редакторі, він закінчується різними способами. Форматування як напівжирний і курсив втрачається; м'які розриви рядка в абзаці тексту перетворюються на жорсткі розриви рядків; тире, щоб розбити слово над двома лініями, зберігаються навіть тоді, коли вони не повинні бути; і одинарні і подвійні лапки замінюються на? знаки.

В ідеалі, я хотів би мати можливість копіювати текст з PDF-файлу і мати форматування, перетворене в HTML-коди, "розумні цитати", перетворені в "і", і перерви рядків зроблено належним чином. Чи є спосіб зробити це?

Чи існує швидкий і простий спосіб для Colen (і всіх нас) отримати текст без шкоди для форматування?

Відповідь

Співробітник SuperUser Frabjous пропонує рішення в поєднанні з великою дозою обережності:

По-перше, ви повинні розуміти, що таке PDF. Файли PDF призначені для імітації друкованої сторінки, і вони розроблені лише як вихідний формат, а не як формат введення. PDF - це в основному карта, що містить точне розташування символів (окремі букви або знаки пунктуації тощо) або зображення. У більшості випадків у форматі PDF навіть не зберігається інформація про те, де закінчується одне слово, а інше починається, набагато менше, ніж м'які перерви та жорсткі перерви для закінчень абзаців.

(Декілька останніх файлів PDF зберігають певну інформацію про цей матеріал, але це нова технологія, і вам буде пощастило знайти такі PDF-файли. Навіть якщо ви зробили це, ваш переглядач PDF може не знати про це.)

Так чи інакше, це до вашого програмного забезпечення для реалізації свого роду "штучного інтелекту", щоб витягти тільки з розташування окремих символів, що це слово, що є абзац, і так далі. Різне програмне забезпечення буде робити це краще, ніж інші, і це також буде залежати від того, як PDF був зроблений. У будь-якому випадку, ви ніколи не повинні очікувати відмінних результатів. Наявність вихідного PDF-файлу не є таким, що має вихідний документ. Набагато краще спробувати отримати це, якщо зможете.

Стандартним рішенням вашої проблеми є використання Adobe Acrobat Professional (дорогий, а не вільний читач) для перетворення PDF у HTML. Навіть це не дасть ідеальних результатів.

Існує вільне програмне забезпечення, яке можна використовувати для вилучення тексту з PDF-файлів, деякі з яких є недоторканими, але знову ж не очікуйте відмінних результатів. Див., Наприклад, калібр (який може конвертувати формат RTF), pdftohtml / pdfreflow або текстовий процесор AbiWord (з усіма додатками імпорту / експорту). Також для OpenOffice є модуль імпорту PDF.

Але будь ласка, не чекайте досконалості з будь-яким з цих результатів. Ви йдете проти зерна тут. PDF просто не призначений для редагування вхідного формату.

Якщо у вас виникли проблеми з вирішенням питання, з якого інструменту почати, Caliber - справжній документ швейцарського армійського ножа. Ви також можете використовувати його для перетворення PDF-файлів для використання на вашій книзі читача і організувати вашу книгу / бібліотеку документів.

Маєте щось додати до пояснення? Звучить в коментарях. Хочете прочитати більше відповідей від інших технологічних користувачів Stack Exchange? Перегляньте повний потік обговорення тут.