documents() - Jmail Data API

client.documents(include_text=False) -> pd.DataFrame

Baixar metadados de documentos. Opcionalmente, inclui o texto completo extraído de todos os documentos (efetua o download de arquivos fragmentados).

Parâmetros

include_text

bool

padrão:"False"

Quando definido como True, baixa fragmentos individuais de texto completo e os concatena em um único DataFrame. Isso requer um download muito maior.

Retorno

pd.DataFrame com metadados do documento, podendo incluir extracted_text.

Exemplo

from jmail import JmailClient

client = JmailClient()

# Metadata only
docs = client.documents()

# Com texto completo extraído (download grande)
docs_full = client.documents(include_text=True)

# Search document descriptions
flights = docs[docs.document_description.str.contains("flight", case=False, na=False)]

Colunas

Coluna	Tipo	Descrição
`id`	int	ID exclusivo do documento
`source`	string	Fonte (`doj`, `house_oversight`)
`release_batch`	string	Identificador de volume/lote
`original_filename`	string	Nome original do arquivo
`page_count`	int	Número de páginas
`size`	int	Tamanho do arquivo em bytes
`document_description`	string	Descrição gerada por IA
`has_thumbnail`	bool	Indica se existe uma miniatura

Coluna Adicional (include_text=True)

Coluna	Tipo	Descrição
`extracted_text`	string	Texto completo extraído do documento

Fragmentos de texto completo

Ao usar include_text=True, o cliente baixa esses fragmentos e os concatena:

Fragmento	Conteúdo
`VOL00008`	Documentos do DOJ (Departamento de Justiça dos EUA), volume 8
`VOL00009`	Documentos do DOJ, volume 9
`VOL00010`	Documentos do DOJ, volume 10
`DataSet11`	Documentos do conjunto de dados 11 do DOJ
`other`	House Oversight, registros judiciais, etc.

URLs diretas

https://data.jmail.world/v1/documents.parquet
https://data.jmail.world/v1/documents-full/VOL00008.parquet
https://data.jmail.world/v1/documents-full/VOL00009.parquet
https://data.jmail.world/v1/documents-full/VOL00010.parquet
https://data.jmail.world/v1/documents-full/DataSet11.parquet
https://data.jmail.world/v1/documents-full/other.parquet

Cliente Python

​Parâmetros

​Retorno

​Exemplo

​Colunas

​Coluna Adicional (include_text=True)

​Fragmentos de texto completo

​URLs diretas