Jak extrahovat text z dokumentu PDF

Extrahujte text pomocí Acrobat Reader

Krok 1

Otevřete soubor v Acrobat Reader. Ve Windows vyberte "Soubor -> Exportovat textový dokument", pojmenujte dokument a uložte jej.

Krok 2

V operačním systému Mac nebo Linux zkopírujte text přístupem do nabídky „Zobrazit“ a vyberte „Průběžné“ nebo „Průběžné orientace“. (První možnost vám poskytne text ve sloupci, zatímco druhá bude formátována jako stránky vedle sebe). Přejděte na "Upravit -> Vybrat vše" a poté na "Upravit -> Kopírovat".

Krok 3

Použijte nástroj pro výběr, pokud chcete extrahovat pouze část textu. Klikněte na nástroj „Vybrat text“ a poté vyberte požadované informace. V dokumentu ve více sloupcích budete muset použít první nástroj „Výběr sloupců“. Přejděte na "Upravit -> Kopírovat"

Převod PDF do HTML

Krok 1

Používejte Gmail jako zkratku. Připojte soubor PDF k e-mailu a odešlete jej na svůj účet Gmail. Po otevření e-mailu uvidíte vedle přiloženého souboru řadu možností. Vyberte možnost „Zobrazit jako HTML“ a uložte soubor, který se otevře, do samostatného okna. Ačkoli nebudete moci grafiku vidět, soubor HTML si zachová formát textového dokumentu.

Krok 2

Rozbalte a převeďte soubory na příkazovém řádku. Uživatelé systému Linux mohou použít základní příkaz pro převod, který změní soubor PDF na soubor TXT: "Pdftotext filename.pdf". Nezapomeňte přejmenovat soubor s názvem souboru PDF.

Krok 3

Stáhněte si program pro převod textu PDF. K dispozici je řada programů s otevřeným zdrojovým kódem a bezplatných programů, například PDFBox a Easy PDF to Text Converter. Mnoho z těchto programů může také převádět soubory PDF do HTML.

Zajímavé Články