Documentação / OCR e Processamento

Como Estruturar Textos com NLP

OCR e Processamento

Visão Geral

O módulo de Processamento de Textos transforma texto livre em dados estruturados. A partir de um texto (digitado ou extraído via OCR), a Textualiza identifica e organiza as informações em campos como nomes, datas, valores, CPFs e outros — prontos para download em Excel ou JSON.

Usando o Painel

Passo 1: Acessar o Módulo

No menu lateral, vá em Processamento de Textos. Você verá a lista de todas as análises realizadas.

Passo 2: Criar Nova Análise

Clique em “Nova Análise” e preencha o formulário:

CampoDescrição
Identificador da AnáliseUm nome para encontrar esta análise facilmente (ex: “Escritura Lote 42”).
Tipo de TextoO tipo do documento que será analisado.
Configuração de EstruturaOpcional. Selecione um template de extração personalizado para definir quais campos extrair.
TextoCole o texto completo do documento a ser analisado.

Tipos de Texto Disponíveis

  • Qualificação de Pessoas
  • Escritura Pública
  • Instrumento Particular
  • Contrato de Financiamento Bancário - Geral
  • Título Judicial
  • Matrícula de Imóvel
  • Currículo
  • Documento de Frota
  • Estrutura Personalizada — use esta opção com um template de extração personalizado

Dica: Se o tipo do seu documento não está na lista, selecione “Estrutura Personalizada” e escolha (ou crie) um template de extração com os campos que precisa.

Passo 3: Acompanhar o Processamento

Após salvar, a análise aparece na lista com status:

  • Em Processamento — a IA está analisando o texto
  • Finalizado — os dados foram extraídos com sucesso

Passo 4: Ver os Resultados

Na página de detalhes da análise, você encontra:

Informações da Análise

  • Tipo de documento, quem enviou e status do processamento

Texto Original

  • O texto completo que foi submetido, com contagem de caracteres

Dados Estruturados

  • Os dados extraídos organizados em campos e valores. Campos complexos (como endereços e listas) são exibidos de forma hierárquica.

Configuração Utilizada

  • Se você usou um template de extração, ele aparece aqui com nome e descrição.

Origem OCR

  • Se o texto veio de um documento processado por OCR, há um link direto para o processamento original.

Passo 5: Exportar os Dados

Na página de detalhes, você pode baixar os resultados em três formatos:

  • Excel — planilha com os dados estruturados em duas abas: uma vertical (campo/valor) e uma tabular
  • JSON — arquivo com os dados brutos para integração com outros sistemas
  • TXT — o texto original extraído

Filtros e Exportação em Lote

Na lista de análises, você pode:

  • Filtrar por tipo de documento e intervalo de datas
  • Exportar Excel com a lista completa das análises

Fluxo Automático: OCR + NLP

Você não precisa copiar e colar texto manualmente. Ao enviar um documento no módulo de Processamento de Imagens (OCR), marque a opção “Iniciar Processamento de Texto Automaticamente” e selecione uma configuração de estrutura. O sistema vai:

  1. Extrair o texto do PDF via OCR
  2. Automaticamente enviar o texto para estruturação via NLP
  3. Disponibilizar os dados estruturados prontos para download

Integração via API

Enviar Texto para Estruturação

Endpoint: POST https://textualiza.com.br/api/nlp/

Headers:

Authorization: Bearer SUA_CHAVE_DE_API
Content-Type: application/json

Corpo da requisição:

{
  "title": "Escritura Lote 42",
  "text_type": "escritura_publica",
  "text": "O texto completo do documento aqui..."
}

Para usar uma estrutura personalizada, adicione o ID da configuração:

{
  "title": "Análise Contrato Fornecedor",
  "text_type": "custom",
  "structure_config": 15,
  "text": "O texto completo do documento aqui..."
}

Exemplo com Python

import requests

url = "https://textualiza.com.br/api/nlp/"
headers = {
    "Authorization": "Bearer SUA_CHAVE_DE_API",
    "Content-Type": "application/json"
}
data = {
    "title": "Escritura Lote 42",
    "text_type": "escritura_publica",
    "text": "ESCRITURA PÚBLICA DE COMPRA E VENDA..."
}

response = requests.post(url, headers=headers, json=data)
print(response.json())

Consultar Resultado

Endpoint: GET https://textualiza.com.br/api/nlp/{text_key}/

Retorna o status do processamento e, quando finalizado, os dados estruturados extraídos.

Listar Análises

Endpoint: GET https://textualiza.com.br/api/nlp/

Retorna todas as análises de texto da sua organização.

Dicas

  • Texto limpo: quanto mais legível e completo o texto, melhor a extração. Se o documento veio de OCR, verifique a qualidade antes de estruturar.
  • Templates personalizados: para documentos recorrentes (contratos, laudos, fichas), crie um template de extração uma vez e reutilize em todas as análises.
  • Automação completa: combine OCR + NLP + API para processar documentos em escala sem intervenção manual.

Experimente a Textualiza gratuitamente

Crie sua conta e ganhe R$50 em créditos para testar todas as funcionalidades.