转换pdf文件为可编辑的文本。格式。

将扫描的文档和图像转换成可编辑的Word、PDF、Excel和TXT（文本）输出格式。

上传要识别的文件，或将其拖放到此页面。

选择文件

或拖放文件

如何进行文本识别？

步骤1

上传文件。

选择您想从计算机、Google驱动器、Dropbox OCR上传的文件，或将其拖放到页面上。

步骤2

请选择语言和输出格式。

请选择文档中使用的所有语言。您还可以选择所需的任何输出格式，例如 doc（支持超过10种文本格式）或其他超过200种格式，以便进行转换。

步骤3

转换并下载。

请点击“识别”按钮，之后即可使用识别出的文本文件进行下载。

光学字符识别

光学字符识别（OCR）是将打字、手写或印刷文本的图像电子或机械转换为机器编码文本的技术，无论是从扫描文档、文档照片、场景照片（例如风景照中的标志和广告牌上的文本）还是从图像中叠加的字幕文本（例如从电视广播中获取）。

OCR（Optical Character Recognition，光学字符识别）是一种将打字、手写或印刷文本的图像电子或机械转换为机器编码文本的技术。这种技术可以应用于扫描文档、文档照片、场景照片（例如风景照中的标志和广告牌上的文本）以及从电视广播等叠加在图像上的字幕文本中提取文本信息。OCR技术广泛应用于从打印纸质数据记录中输入数据的场景，无论是护照文件、发票、银行对账单、计算机化收据、名片、邮件、静态数据的打印输出还是任何适当的文档。OCR技术将打印文本进行数字化，以便它们可以以电子方式编辑、搜索、更紧凑地存储、在线显示，并用于机器过程，例如认知计算、机器翻译、（提取）文本到语音、关键数据和文本挖掘。OCR技术是模式识别、人工智能和计算机视觉的研究领域。

较早的版本需要使用单个字符图像进行训练，并逐个处理每个字体。现在，高级系统能够为大多数字体产生高度识别准确度，并支持各种数字图像文件格式输入。一些系统还能够再现与原始页面紧密接近的格式化输出，包括图像、列和其他非文本组件。