OCR é a sigla para Optical Character Recognition (em português, Reconhecimento Óptico de Caracteres). É uma tecnologia utilizada para reconhecer palavras e letras em uma imagem, extraindo textos e possibilitando o armazenamento do conteúdo e a manipulação dos dados.
A assertividade do reconhecimento dos caracteres irá depender fortemente da qualidade do arquivo digitalizado e do algoritmo de reconhecimento.
Em termos gerais, para uma boa extração, o arquivo deve ter:
- A resolução do arquivo deve ser de 300 DPI
- A imagem deve estar em tons de cinza
- O alinhamento do texto deve ser na horizontal
- O fundo da imagem com o texto deve estar limpo, sem inpurezas gráficas
Caso os itens acima não sejam suficientes, é possível alterar o algoritmo de reconhecimento utilizado. O Zeev Docs suporta e integra-se a diversos serviços e algoritmos de indexação. Consulte o administrador do sistema.