¿Qué es el OCR?
El OCR (Optical Character Recognition) es una tecnología que trata de emular la capacidad del ojo humano para reconocer objetos. Concretamente es un software que permite el reconocimiento óptico de los caracteres contenidos en una imagen (documento escaneado o fotografía), de forma que estos se vuelven comprensibles o reconocibles para un ordenador, obteniendo como resultado final un archivo en un formato de texto editable. El formato del archivo de salida (txt, pdf, etc.) dependerá de las posibilidades que ofrezca el software. Esto nos permitira hacer una digitalizacion masiva de documentos
¿Cómo funciona el OCR?
Para reconocer los caracteres, el software inspecciona la imagen pixel a pixel para poder realizar la digitalizacion masiva de documentos, buscando formas que coincidan con los rasgos de los caracteres. En función del nivel de complejidad o grado de desarrollo del software, éste buscará coincidencias con los caracteres y fuentes disponibles en el programa, o tratará de identificar los caracteres a través del análisis de sus características, de forma que el reconocimiento de los mismos no se limite exclusivamente a un determinado número de fuentes.
El OCR puede analizar los elementos del documento (bloques de texto, imágenes, tablas…), examinando los espacios en blanco y descomponiendo el texto en líneas, palabras y caracteres, de forma que el programa puede formular distintas hipótesis y cotejarlas con los diccionarios contenidos por el mismo (actualmente los programas contienen diccionarios en distintos idiomas), para formar palabras y textos completos. Este servico de digitalizacion de documentos es fundamental para este tipo servicio,para poder realizar la digitalizacion masiva de docuemtos.
¿Qué ventajas puede tener la aplicación del OCR?
Búsqueda y recuperación de documentos
- La aplicación del OCR permite realizar búsquedas de texto libre sobre la totalidad del documento.
- En el proceso de creación de los metadatos, el OCR se puede utilizar para generar índices de palabras clave del texto reconocido de forma automática es mediante el servico de digitalizacion de documentos.
Explotación de los documentos
- El OCR permite convertir el texto de la digitalizacion masiva de documentos a formatos editables.
- Aunque el OCR no es una herramienta para hacer los documentos accesibles para personas con discapacidades visuales, su aplicación combinada con otras tecnologías permite que el texto resultante se sintetice en líneas de braille o archivos de audio.
Perspectiva económica
- Ahorro de tiempo respecto a la inserción manual de datos (el OCR puede alcanzar una velocidad de lectura de hasta 1.200 caracteres por segundo).
- El almacenamiento en formato de texto puede suponer un ahorro de espacio respecto del almacenamiento como imagen (el archivo de texto necesita aproximadamente 1/3 del espacio que ocupa la imagen).
Fuente: Kulturaren Euskal Behatokia
En Xpress Technology Services brindamos alternativas confiables y seguras para digitalizar su información que se ajustan a sus necesidades, si desea una cotización contáctese con nuestros ejecutivos.