client.documents(include_text=False) -> pd.DataFrame
Descarga los metadatos de los documentos. Opcionalmente incluye el texto completo extraído de todos los documentos (descarga archivos fragmentados).
include_text
bool
predeterminado:"False"
Cuando es True, descarga fragmentos individuales de texto completo y los concatena en un único DataFrame. Esto supone una descarga mucho más grande.
pd.DataFrame que contiene metadatos del documento y, opcionalmente, extracted_text.
from jmail import JmailClient
client = JmailClient()
# Metadata only
docs = client.documents()
# Con texto extraído completo (descarga grande)
docs_full = client.documents(include_text=True)
# Search document descriptions
flights = docs[docs.document_description.str.contains("flight", case=False, na=False)]
| Columna | Tipo | Descripción |
|---|
id | int | ID único del documento |
source | string | Fuente (doj, house_oversight) |
release_batch | string | Identificador de volumen/lote |
original_filename | string | Nombre de archivo original |
page_count | int | Número de páginas |
size | int | Tamaño del archivo en bytes |
document_description | string | Descripción generada por IA |
has_thumbnail | bool | Indica si existe una miniatura |
Columna adicional (include_text=True)
| Columna | Tipo | Descripción |
|---|
extracted_text | string | Texto completo extraído del documento |
Fragmentos de texto completo
Cuando usas include_text=True, el cliente descarga estos fragmentos y los concatena:
| Fragmento | Contenido |
|---|
VOL00008 | Documentos del volumen 8 del DOJ (Departamento de Justicia de EE. UU.) |
VOL00009 | Documentos del volumen 9 del DOJ |
VOL00010 | Documentos del volumen 10 del DOJ |
DataSet11 | Documentos del conjunto de datos 11 del DOJ |
other | House Oversight, registros judiciales, etc. |
https://data.jmail.world/v1/documents.parquet
https://data.jmail.world/v1/documents-full/VOL00008.parquet
https://data.jmail.world/v1/documents-full/VOL00009.parquet
https://data.jmail.world/v1/documents-full/VOL00010.parquet
https://data.jmail.world/v1/documents-full/DataSet11.parquet
https://data.jmail.world/v1/documents-full/other.parquet