OCR pdf

Gescannte Dokumente und Bilder in bearbeitbare Word-, PDF-, Excel- und Txt-(Text)-Ausgaben konvertieren formate

Dateien zum "Erkennen" hochladen oder per Drag & Drop auf diese Seite ziehen

Wählen Sie eine Datei aus

oder ziehen Sie eine Datei per Drag & Drop

Wie erkenne ich Text?

Schritt 1

Datei hochladen

Wählen Sie eine Datei aus, die Sie konvertieren möchten, von Ihrem Computer, Google Drive oder Dropbox, oder ziehen Sie sie einfach per Drag & Drop auf die Seite

Schritt 2

Sprache und Ausgabeformat auswählen

Wählen Sie alle Sprachen aus, die in Ihrer Datei verwendet werden. Wählen Sie dann ein beliebiges Ausgabeformat, wie z.B. .doc (mehr als 10 unterstützte Textformate)

Schritt 3

Konvertieren

Klicken Sie auf die Schaltfläche "Erkennen" und laden Sie dann Ihre Datei mit der erkannten Textdatei herunter

Optische Zeichenerkennung

Optische Zeichenerkennung oder Optical Character Recognition (OCR) bezieht sich auf die elektronische oder mechanische Umwandlung von Bildern von maschinengeschriebenem, handgeschriebenem oder gedrucktem Text in maschinell lesbaren Text. Das gilt für gescannte Dokumente, Fotos von Dokumenten, Szenenfotos (z.B. Text auf Schildern und Plakaten in einem Landschaftsfoto) sowie für Untertiteltexte, die über einem Bild angezeigt werden (z.B. aus einer Fernsehsendung).

Als eine Form der Dateneingabe aus Papierdatensätzen, sei es Passdokumente, Rechnungen, Kontoauszüge, computergestützte Quittungen, Visitenkarten, Post, Ausdrucke von statischen Daten oder geeignete Dokumentation, ist OCR eine gängige Methode, gedruckte Texte zu digitalisieren. Dadurch können sie elektronisch bearbeitet, durchsucht, platzsparend gespeichert, online angezeigt und in maschinellen Prozessen wie Cognitive Computing, maschineller Übersetzung, (extrahiertem) Text-to-Speech, Schlüsseldaten und Text Mining verwendet werden. OCR ist weit verbreitet und wird in der Forschung zur Mustererkennung, künstlichen Intelligenz und Computer Vision eingesetzt.

In früheren Versionen mussten Bilder von jedem Zeichen trainiert und für jede Schriftart separat verarbeitet werden. Heutzutage sind fortgeschrittene Systeme üblich, die für die meisten Schriftarten eine hohe Erkennungsgenauigkeit erzielen können und eine Vielzahl digitaler Bilddateiformate als Eingabe unterstützen. Einige Systeme können sogar eine formatierte Ausgabe reproduzieren, die der Originalseite sehr ähnlich ist, einschließlich Bilder, Spalten und anderen nicht-textuellen Elementen.