client.documents(include_text=False) -> pd.DataFrame
Baixar metadados de documentos. Opcionalmente, inclui o texto completo extraído de todos os documentos (efetua o download de arquivos fragmentados).
Quando definido como True, baixa fragmentos individuais de texto completo e os concatena em um único DataFrame. Isso requer um download muito maior.
pd.DataFrame com metadados do documento, podendo incluir extracted_text.
from jmail import JmailClient
client = JmailClient()
# Metadata only
docs = client.documents()
# Com texto completo extraído (download grande)
docs_full = client.documents(include_text=True)
# Search document descriptions
flights = docs[docs.document_description.str.contains("flight", case=False, na=False)]
| Coluna | Tipo | Descrição |
|---|
id | int | ID exclusivo do documento |
source | string | Fonte (doj, house_oversight) |
release_batch | string | Identificador de volume/lote |
original_filename | string | Nome original do arquivo |
page_count | int | Número de páginas |
size | int | Tamanho do arquivo em bytes |
document_description | string | Descrição gerada por IA |
has_thumbnail | bool | Indica se existe uma miniatura |
Coluna Adicional (include_text=True)
| Coluna | Tipo | Descrição |
|---|
extracted_text | string | Texto completo extraído do documento |
Fragmentos de texto completo
Ao usar include_text=True, o cliente baixa esses fragmentos e os concatena:
| Fragmento | Conteúdo |
|---|
VOL00008 | Documentos do DOJ (Departamento de Justiça dos EUA), volume 8 |
VOL00009 | Documentos do DOJ, volume 9 |
VOL00010 | Documentos do DOJ, volume 10 |
DataSet11 | Documentos do conjunto de dados 11 do DOJ |
other | House Oversight, registros judiciais, etc. |
https://data.jmail.world/v1/documents.parquet
https://data.jmail.world/v1/documents-full/VOL00008.parquet
https://data.jmail.world/v1/documents-full/VOL00009.parquet
https://data.jmail.world/v1/documents-full/VOL00010.parquet
https://data.jmail.world/v1/documents-full/DataSet11.parquet
https://data.jmail.world/v1/documents-full/other.parquet