Vai al contenuto principale
client.documents(include_text=False) -> pd.DataFrame
Scarica i metadati dei documenti. Può includere anche il testo completo estratto da tutti i documenti (scarica i file frammentati).

Parametri

include_text
bool
predefinito:"False"
Se impostato su True, scarica i singoli frammenti di testo integrale e li concatena in un unico DataFrame. Questo comporta un download di dimensioni molto maggiori.

Restituisce

pd.DataFrame con i metadati del documento, che opzionalmente include extracted_text.

Esempio

from jmail import JmailClient

client = JmailClient()

# Solo metadati
docs = client.documents()

# Con testo completo estratto (download di grandi dimensioni)
docs_full = client.documents(include_text=True)

# Cerca descrizioni dei documenti
flights = docs[docs.document_description.str.contains("flight", case=False, na=False)]

Colonne

ColonnaTipoDescrizione
idintID univoco del documento
sourcestringFonte (doj, house_oversight)
release_batchstringIdentificatore del volume/batch
original_filenamestringNome del file originale
page_countintNumero di pagine
sizeintDimensione del file in byte
document_descriptionstringDescrizione generata dall’IA
has_thumbnailboolIndica se è presente una miniatura

Colonna aggiuntiva (include_text=True)

ColonnaTipoDescrizione
extracted_textstringTesto completo estratto dal documento

Frammenti di testo integrale

Quando imposti include_text=True, il client scarica questi frammenti e li concatena:
FrammentoContenuti
VOL00008documenti del volume 8 del DOJ (U.S. Department of Justice)
VOL00009documenti del volume 9 del DOJ
VOL00010documenti del volume 10 del DOJ
DataSet11documenti del dataset 11 del DOJ
otherHouse Oversight, atti giudiziari, ecc.

URL diretti

https://data.jmail.world/v1/documents.parquet
https://data.jmail.world/v1/documents-full/VOL00008.parquet
https://data.jmail.world/v1/documents-full/VOL00009.parquet
https://data.jmail.world/v1/documents-full/VOL00010.parquet
https://data.jmail.world/v1/documents-full/DataSet11.parquet
https://data.jmail.world/v1/documents-full/other.parquet