Pular para o conteúdo principal
client.documents(include_text=False) -> pd.DataFrame
Baixar metadados de documentos. Opcionalmente, inclui o texto completo extraído de todos os documentos (efetua o download de arquivos fragmentados).

Parâmetros

include_text
bool
padrão:"False"
Quando definido como True, baixa fragmentos individuais de texto completo e os concatena em um único DataFrame. Isso requer um download muito maior.

Retorno

pd.DataFrame com metadados do documento, podendo incluir extracted_text.

Exemplo

from jmail import JmailClient

client = JmailClient()

# Metadata only
docs = client.documents()

# Com texto completo extraído (download grande)
docs_full = client.documents(include_text=True)

# Search document descriptions
flights = docs[docs.document_description.str.contains("flight", case=False, na=False)]

Colunas

ColunaTipoDescrição
idintID exclusivo do documento
sourcestringFonte (doj, house_oversight)
release_batchstringIdentificador de volume/lote
original_filenamestringNome original do arquivo
page_countintNúmero de páginas
sizeintTamanho do arquivo em bytes
document_descriptionstringDescrição gerada por IA
has_thumbnailboolIndica se existe uma miniatura

Coluna Adicional (include_text=True)

ColunaTipoDescrição
extracted_textstringTexto completo extraído do documento

Fragmentos de texto completo

Ao usar include_text=True, o cliente baixa esses fragmentos e os concatena:
FragmentoConteúdo
VOL00008Documentos do DOJ (Departamento de Justiça dos EUA), volume 8
VOL00009Documentos do DOJ, volume 9
VOL00010Documentos do DOJ, volume 10
DataSet11Documentos do conjunto de dados 11 do DOJ
otherHouse Oversight, registros judiciais, etc.

URLs diretas

https://data.jmail.world/v1/documents.parquet
https://data.jmail.world/v1/documents-full/VOL00008.parquet
https://data.jmail.world/v1/documents-full/VOL00009.parquet
https://data.jmail.world/v1/documents-full/VOL00010.parquet
https://data.jmail.world/v1/documents-full/DataSet11.parquet
https://data.jmail.world/v1/documents-full/other.parquet