Documentação / OCR e Processamento

Como Processar Documentos com OCR

OCR e Processamento

Visão Geral

O módulo de OCR da Textualiza extrai texto de documentos PDF usando inteligência artificial. Você pode enviar documentos pelo painel ou pela API, e opcionalmente já iniciar a estruturação automática do texto extraído.

Usando o Painel

Passo 1: Acessar o Módulo

No menu lateral, vá em Processamento de Imagens. Você verá a lista de todos os documentos já processados pela sua organização.

Passo 2: Enviar um Documento

Clique em “Enviar Imagem” para abrir o formulário de upload.

Passo 3: Preencher o Formulário

CampoDescrição
ArquivoSelecione o arquivo PDF. Você pode clicar para selecionar ou arrastar e soltar.
Nome Identificador da AnáliseUm nome para identificar facilmente o documento (ex: “Contrato João Silva”).
Tipo de ArquivoSelecione o tipo do documento (veja a lista de tipos abaixo).
Iniciar Processamento de Texto AutomaticamenteMarque esta opção se quiser que o texto extraído seja estruturado automaticamente pelo NLP.
Configuração de Estrutura NLPSe marcou a opção acima, selecione qual template de extração usar.

Tipos de Documento Disponíveis

Documentos Jurídicos e Imobiliários:

  • Escritura Pública
  • Instrumento Particular
  • Contrato de Financiamento Bancário - Geral
  • Título Judicial
  • Matrícula de Imóvel

Certidões:

  • Certidão de Nascimento
  • Certidão de Casamento
  • Certidão de Óbito

Recursos Humanos:

  • Currículo

Documentos Pessoais:

  • CNH (Carteira Nacional de Habilitação)
  • RG (Registro Geral)
  • Passaporte

Transportes:

  • Documento de Frota

Passo 4: Envio em Lote (Opcional)

Após preencher o formulário principal, você pode clicar em “Adicionar Arquivo” para incluir mais arquivos na mesma submissão. Todos serão processados com as mesmas configurações.

Passo 5: Acompanhar o Processamento

Após o envio, o documento aparece na lista com status:

  • Processando — o OCR está em andamento
  • Finalizado — o texto foi extraído com sucesso

Passo 6: Ver o Resultado

Clique no ícone de visualização (olho) para abrir os detalhes. Na página de detalhes você encontra:

  • Informações do documento: tipo, quem enviou, organização, número de páginas, tamanho e status
  • Texto Identificado: o conteúdo extraído do PDF
  • Arquivo Original: botão para visualizar o PDF enviado
  • Download TXT: botão para baixar o texto extraído como arquivo de texto

Filtros e Exportação

Na lista de documentos, você pode:

  • Filtrar por tipo de documento e intervalo de datas
  • Exportar Excel com a lista completa dos documentos processados

Integração via API

Enviar Documento para OCR

Endpoint: POST https://textualiza.com.br/api/ocr/

Headers:

Authorization: Bearer SUA_CHAVE_DE_API
Content-Type: multipart/form-data

Campos do formulário:

CampoTipoObrigatórioDescrição
fileArquivoSimO arquivo PDF a ser processado
titleTextoSimNome identificador do documento
file_typeTextoSimTipo do documento (ex: escritura_publica, matricula_imovel, curriculo)
is_nlp_runBooleanoNãoSe true, inicia a estruturação de texto automaticamente
structure_configIDNãoID da configuração de estrutura (se is_nlp_run for true)

Exemplo com cURL

curl -X POST https://textualiza.com.br/api/ocr/ \
  -H "Authorization: Bearer SUA_CHAVE_DE_API" \
  -F "file=@documento.pdf" \
  -F "title=Contrato João Silva" \
  -F "file_type=escritura_publica" \
  -F "is_nlp_run=true"

Exemplo com Python

import requests

url = "https://textualiza.com.br/api/ocr/"
headers = {
    "Authorization": "Bearer SUA_CHAVE_DE_API"
}
files = {
    "file": open("documento.pdf", "rb")
}
data = {
    "title": "Contrato João Silva",
    "file_type": "escritura_publica",
    "is_nlp_run": True
}

response = requests.post(url, headers=headers, files=files, data=data)
print(response.json())

Consultar Resultado

Endpoint: GET https://textualiza.com.br/api/ocr/{id}/

A resposta inclui o status do processamento e, quando finalizado, o texto extraído.

Listar Documentos Processados

Endpoint: GET https://textualiza.com.br/api/ocr/

Retorna todos os documentos processados pela sua organização.

Dicas

  • Qualidade do PDF: documentos escaneados com boa resolução (300 DPI ou mais) geram melhores resultados.
  • Processamento automático: se você já sabe qual estrutura de dados quer extrair, marque “Iniciar Processamento de Texto Automaticamente” e selecione o template. Isso economiza uma etapa.
  • Lotes: use o envio em lote para processar vários documentos do mesmo tipo de uma vez.

Experimente a Textualiza gratuitamente

Crie sua conta e ganhe R$50 em créditos para testar todas as funcionalidades.