英语文字识别(OCR)。
将扫描的文档和图像转换成可编辑的Word、PDF、Excel和TXT(文本)输出格式。
上传要识别的文件,或将其拖放到此页面。
选择文件
或拖放文件
如何进行文本识别?
步骤1
上传文件。
选择您想从计算机、Google驱动器、Dropbox OCR上传的文件,或将其拖放到页面上。
步骤2
请选择语言和输出格式。
请选择文档中使用的所有语言。您还可以选择所需的任何输出格式,例如 doc(支持超过10种文本格式)或其他超过200种格式,以便进行转换。
步骤3
转换并下载。
请点击“识别”按钮,之后即可使用识别出的文本文件进行下载。
光学字符识别
光学字符识别(OCR)是将打字、手写或印刷文本的图像电子或机械转换为机器编码文本的技术,无论是从扫描文档、文档照片、场景照片(例如风景照中的标志和广告牌上的文本)还是从图像中叠加的字幕文本(例如从电视广播中获取)。
OCR(Optical Character Recognition,光学字符识别)是一种将打字、手写或印刷文本的图像电子或机械转换为机器编码文本的技术。这种技术可以应用于扫描文档、文档照片、场景照片(例如风景照中的标志和广告牌上的文本)以及从电视广播等叠加在图像上的字幕文本中提取文本信息。OCR技术广泛应用于从打印纸质数据记录中输入数据的场景,无论是护照文件、发票、银行对账单、计算机化收据、名片、邮件、静态数据的打印输出还是任何适当的文档。OCR技术将打印文本进行数字化,以便它们可以以电子方式编辑、搜索、更紧凑地存储、在线显示,并用于机器过程,例如认知计算、机器翻译、(提取)文本到语音、关键数据和文本挖掘。OCR技术是模式识别、人工智能和计算机视觉的研究领域。
较早的版本需要使用单个字符图像进行训练,并逐个处理每个字体。现在,高级系统能够为大多数字体产生高度识别准确度,并支持各种数字图像文件格式输入。一些系统还能够再现与原始页面紧密接近的格式化输出,包括图像、列和其他非文本组件。