Saltar al contenido principal
client.documents(include_text=False) -> pd.DataFrame
Descarga los metadatos de los documentos. Opcionalmente incluye el texto completo extraído de todos los documentos (descarga archivos fragmentados).

Parámetros

include_text
bool
predeterminado:"False"
Cuando es True, descarga fragmentos individuales de texto completo y los concatena en un único DataFrame. Esto supone una descarga mucho más grande.

Devuelve

pd.DataFrame que contiene metadatos del documento y, opcionalmente, extracted_text.

Ejemplo

from jmail import JmailClient

client = JmailClient()

# Metadata only
docs = client.documents()

# Con texto extraído completo (descarga grande)
docs_full = client.documents(include_text=True)

# Search document descriptions
flights = docs[docs.document_description.str.contains("flight", case=False, na=False)]

Columnas

ColumnaTipoDescripción
idintID único del documento
sourcestringFuente (doj, house_oversight)
release_batchstringIdentificador de volumen/lote
original_filenamestringNombre de archivo original
page_countintNúmero de páginas
sizeintTamaño del archivo en bytes
document_descriptionstringDescripción generada por IA
has_thumbnailboolIndica si existe una miniatura

Columna adicional (include_text=True)

ColumnaTipoDescripción
extracted_textstringTexto completo extraído del documento

Fragmentos de texto completo

Cuando usas include_text=True, el cliente descarga estos fragmentos y los concatena:
FragmentoContenido
VOL00008Documentos del volumen 8 del DOJ (Departamento de Justicia de EE. UU.)
VOL00009Documentos del volumen 9 del DOJ
VOL00010Documentos del volumen 10 del DOJ
DataSet11Documentos del conjunto de datos 11 del DOJ
otherHouse Oversight, registros judiciales, etc.

URL directas

https://data.jmail.world/v1/documents.parquet
https://data.jmail.world/v1/documents-full/VOL00008.parquet
https://data.jmail.world/v1/documents-full/VOL00009.parquet
https://data.jmail.world/v1/documents-full/VOL00010.parquet
https://data.jmail.world/v1/documents-full/DataSet11.parquet
https://data.jmail.world/v1/documents-full/other.parquet