Visão Geral
O módulo de OCR da Textualiza extrai texto de documentos PDF usando inteligência artificial. Você pode enviar documentos pelo painel ou pela API, e opcionalmente já iniciar a estruturação automática do texto extraído.
Usando o Painel
Passo 1: Acessar o Módulo
No menu lateral, vá em Processamento de Imagens. Você verá a lista de todos os documentos já processados pela sua organização.
Passo 2: Enviar um Documento
Clique em “Enviar Imagem” para abrir o formulário de upload.
Passo 3: Preencher o Formulário
| Campo | Descrição |
|---|---|
| Arquivo | Selecione o arquivo PDF. Você pode clicar para selecionar ou arrastar e soltar. |
| Nome Identificador da Análise | Um nome para identificar facilmente o documento (ex: “Contrato João Silva”). |
| Tipo de Arquivo | Selecione o tipo do documento (veja a lista de tipos abaixo). |
| Iniciar Processamento de Texto Automaticamente | Marque esta opção se quiser que o texto extraído seja estruturado automaticamente pelo NLP. |
| Configuração de Estrutura NLP | Se marcou a opção acima, selecione qual template de extração usar. |
Tipos de Documento Disponíveis
Documentos Jurídicos e Imobiliários:
- Escritura Pública
- Instrumento Particular
- Contrato de Financiamento Bancário - Geral
- Título Judicial
- Matrícula de Imóvel
Certidões:
- Certidão de Nascimento
- Certidão de Casamento
- Certidão de Óbito
Recursos Humanos:
- Currículo
Documentos Pessoais:
- CNH (Carteira Nacional de Habilitação)
- RG (Registro Geral)
- Passaporte
Transportes:
- Documento de Frota
Passo 4: Envio em Lote (Opcional)
Após preencher o formulário principal, você pode clicar em “Adicionar Arquivo” para incluir mais arquivos na mesma submissão. Todos serão processados com as mesmas configurações.
Passo 5: Acompanhar o Processamento
Após o envio, o documento aparece na lista com status:
- Processando — o OCR está em andamento
- Finalizado — o texto foi extraído com sucesso
Passo 6: Ver o Resultado
Clique no ícone de visualização (olho) para abrir os detalhes. Na página de detalhes você encontra:
- Informações do documento: tipo, quem enviou, organização, número de páginas, tamanho e status
- Texto Identificado: o conteúdo extraído do PDF
- Arquivo Original: botão para visualizar o PDF enviado
- Download TXT: botão para baixar o texto extraído como arquivo de texto
Filtros e Exportação
Na lista de documentos, você pode:
- Filtrar por tipo de documento e intervalo de datas
- Exportar Excel com a lista completa dos documentos processados
Integração via API
Enviar Documento para OCR
Endpoint: POST https://textualiza.com.br/api/ocr/
Headers:
Authorization: Bearer SUA_CHAVE_DE_API
Content-Type: multipart/form-data
Campos do formulário:
| Campo | Tipo | Obrigatório | Descrição |
|---|---|---|---|
file | Arquivo | Sim | O arquivo PDF a ser processado |
title | Texto | Sim | Nome identificador do documento |
file_type | Texto | Sim | Tipo do documento (ex: escritura_publica, matricula_imovel, curriculo) |
is_nlp_run | Booleano | Não | Se true, inicia a estruturação de texto automaticamente |
structure_config | ID | Não | ID da configuração de estrutura (se is_nlp_run for true) |
Exemplo com cURL
curl -X POST https://textualiza.com.br/api/ocr/ \
-H "Authorization: Bearer SUA_CHAVE_DE_API" \
-F "file=@documento.pdf" \
-F "title=Contrato João Silva" \
-F "file_type=escritura_publica" \
-F "is_nlp_run=true"
Exemplo com Python
import requests
url = "https://textualiza.com.br/api/ocr/"
headers = {
"Authorization": "Bearer SUA_CHAVE_DE_API"
}
files = {
"file": open("documento.pdf", "rb")
}
data = {
"title": "Contrato João Silva",
"file_type": "escritura_publica",
"is_nlp_run": True
}
response = requests.post(url, headers=headers, files=files, data=data)
print(response.json())
Consultar Resultado
Endpoint: GET https://textualiza.com.br/api/ocr/{id}/
A resposta inclui o status do processamento e, quando finalizado, o texto extraído.
Listar Documentos Processados
Endpoint: GET https://textualiza.com.br/api/ocr/
Retorna todos os documentos processados pela sua organização.
Dicas
- Qualidade do PDF: documentos escaneados com boa resolução (300 DPI ou mais) geram melhores resultados.
- Processamento automático: se você já sabe qual estrutura de dados quer extrair, marque “Iniciar Processamento de Texto Automaticamente” e selecione o template. Isso economiza uma etapa.
- Lotes: use o envio em lote para processar vários documentos do mesmo tipo de uma vez.