OCR pdf

Zet gescande documenten en afbeeldingen naar bewerkbare Word, PDF, Excel en Txt (Tekst) output formaten

Upload Bestanden om ze te herkennen of sleep ze naar deze pagina

Bestand kiezen

of slepen en neerzetten bestand

Hoe tekst te herkennen?

stap 1

Bestand uploaden

Om te converteren selecteer je het gewenste bestand van je computer, Google Drive of Dropbox. Je kunt het bestand ook rechtstreeks naar de pagina slepen.

stap 2

Selecteer taal en uitvoerformaat

Selecteer alle in het document gebruikte talen en kies het gewenste uitvoerformaat, zoals .doc (naast de meer dan 10 ondersteunde tekstformaten).

stap 3

Converteren & Downloaden

Klik op de knop 'Bevestigen' en download het bestand met de herkende tekst.

Optische tekenherkenning

De technologie die bekend staat als 'Optical Character Recognition' of 'OCR' maakt het mogelijk getypte, handgeschreven of gedrukte tekst elektronisch of mechanisch om te zetten in machinaal leesbare gecodeerde tekst. Dit kan gebeuren op basis van een gescand document, van een foto van een document, van een afbeelding van een scène (zoals de tekst op borden of reclameposters in een foto van een landschap) of van de tekst van ondertitels die op een afbeelding zijn gesuperponeerd (zoals die in een televisieprogramma).

OCR, wat staat voor Optical Character Recognition, wordt veel gebruikt als methode om gegevens uit papieren documenten - zoals paspoorten, facturen, bankafschriften, kwitanties, visitekaartjes, e-mails, statische gegevensafdrukken of andere soorten documentatie - in digitaal formaat in te voeren. Hierdoor kan gedrukte tekst worden gedigitaliseerd zodat deze elektronisch kan worden beheerd, doorzocht, compacter opgeslagen, online bekeken en gebruikt in geautomatiseerde processen zoals cognitieve informatica, automatische vertaling, tekst-naar-spraak en datamining. OCR is een onderzoeksgebied waarbij patroonherkenning, kunstmatige intelligentie en computervisie een rol spelen.

In het verleden moesten vroege versies van deze systemen worden getraind met beelden van elk afzonderlijk teken en werkten zij slechts met één lettertype tegelijk. Nu zijn er echter geavanceerde systemen beschikbaar die voor de meeste lettertypen een hoge herkenningsnauwkeurigheid bieden, mede dankzij de ondersteuning van diverse digitale beeldbestandsformaten voor de invoer. Bovendien zijn sommige systemen in staat de opgemaakte uitvoer zeer dicht bij de originele pagina te reproduceren, inclusief afbeeldingen, kolommen en andere niet-tekstuele elementen.