Visão Geral

O módulo de OCR da Textualiza extrai texto de documentos PDF usando inteligência artificial. Você pode enviar documentos pelo painel ou pela API, e opcionalmente já iniciar a estruturação automática do texto extraído.

Usando o Painel

Passo 1: Acessar o Módulo

No menu lateral, vá em Processamento de Imagens. Você verá a lista de todos os documentos já processados pela sua organização.

Passo 2: Enviar um Documento

Clique em “Enviar Imagem” para abrir o formulário de upload.

Passo 3: Preencher o Formulário

Campo	Descrição
Arquivo	Selecione o arquivo PDF. Você pode clicar para selecionar ou arrastar e soltar.
Nome Identificador da Análise	Um nome para identificar facilmente o documento (ex: “Contrato João Silva”).
Tipo de Arquivo	Selecione o tipo do documento (veja a lista de tipos abaixo).
Iniciar Processamento de Texto Automaticamente	Marque esta opção se quiser que o texto extraído seja estruturado automaticamente pelo NLP.
Configuração de Estrutura NLP	Se marcou a opção acima, selecione qual template de extração usar.

Tipos de Documento Disponíveis

Documentos Jurídicos e Imobiliários:

Escritura Pública
Instrumento Particular
Contrato de Financiamento Bancário - Geral
Título Judicial
Matrícula de Imóvel

Certidões:

Certidão de Nascimento
Certidão de Casamento
Certidão de Óbito

Recursos Humanos:

Currículo

Documentos Pessoais:

CNH (Carteira Nacional de Habilitação)
RG (Registro Geral)
Passaporte

Transportes:

Documento de Frota

Passo 4: Envio em Lote (Opcional)

Após preencher o formulário principal, você pode clicar em “Adicionar Arquivo” para incluir mais arquivos na mesma submissão. Todos serão processados com as mesmas configurações.

Passo 5: Acompanhar o Processamento

Após o envio, o documento aparece na lista com status:

Processando — o OCR está em andamento
Finalizado — o texto foi extraído com sucesso

Passo 6: Ver o Resultado

Clique no ícone de visualização (olho) para abrir os detalhes. Na página de detalhes você encontra:

Informações do documento: tipo, quem enviou, organização, número de páginas, tamanho e status
Texto Identificado: o conteúdo extraído do PDF
Arquivo Original: botão para visualizar o PDF enviado
Download TXT: botão para baixar o texto extraído como arquivo de texto

Filtros e Exportação

Na lista de documentos, você pode:

Filtrar por tipo de documento e intervalo de datas
Exportar Excel com a lista completa dos documentos processados

Integração via API

Enviar Documento para OCR

Endpoint: POST https://textualiza.com.br/api/ocr/

Headers:

Authorization: Bearer SUA_CHAVE_DE_API
Content-Type: multipart/form-data

Campos do formulário:

Campo	Tipo	Obrigatório	Descrição
`file`	Arquivo	Sim	O arquivo PDF a ser processado
`title`	Texto	Sim	Nome identificador do documento
`file_type`	Texto	Sim	Tipo do documento (ex: `escritura_publica`, `matricula_imovel`, `curriculo`)
`is_nlp_run`	Booleano	Não	Se `true`, inicia a estruturação de texto automaticamente
`structure_config`	ID	Não	ID da configuração de estrutura (se `is_nlp_run` for `true`)

Exemplo com cURL

curl -X POST https://textualiza.com.br/api/ocr/ \
  -H "Authorization: Bearer SUA_CHAVE_DE_API" \
  -F "file=@documento.pdf" \
  -F "title=Contrato João Silva" \
  -F "file_type=escritura_publica" \
  -F "is_nlp_run=true"

Exemplo com Python

import requests

url = "https://textualiza.com.br/api/ocr/"
headers = {
    "Authorization": "Bearer SUA_CHAVE_DE_API"
}
files = {
    "file": open("documento.pdf", "rb")
}
data = {
    "title": "Contrato João Silva",
    "file_type": "escritura_publica",
    "is_nlp_run": True
}

response = requests.post(url, headers=headers, files=files, data=data)
print(response.json())

Consultar Resultado

Endpoint: GET https://textualiza.com.br/api/ocr/{id}/

A resposta inclui o status do processamento e, quando finalizado, o texto extraído.

Listar Documentos Processados

Endpoint: GET https://textualiza.com.br/api/ocr/

Retorna todos os documentos processados pela sua organização.

Dicas

Qualidade do PDF: documentos escaneados com boa resolução (300 DPI ou mais) geram melhores resultados.
Processamento automático: se você já sabe qual estrutura de dados quer extrair, marque “Iniciar Processamento de Texto Automaticamente” e selecione o template. Isso economiza uma etapa.
Lotes: use o envio em lote para processar vários documentos do mesmo tipo de uma vez.

Como Processar Documentos com OCR