client.documents(include_text=False) -> pd.DataFrame
Scarica i metadati dei documenti. Può includere anche il testo completo estratto da tutti i documenti (scarica i file frammentati).
Se impostato su True, scarica i singoli frammenti di testo integrale e li concatena in un unico DataFrame. Questo comporta un download di dimensioni molto maggiori.
pd.DataFrame con i metadati del documento, che opzionalmente include extracted_text.
from jmail import JmailClient
client = JmailClient()
# Solo metadati
docs = client.documents()
# Con testo completo estratto (download di grandi dimensioni)
docs_full = client.documents(include_text=True)
# Cerca descrizioni dei documenti
flights = docs[docs.document_description.str.contains("flight", case=False, na=False)]
| Colonna | Tipo | Descrizione |
|---|
id | int | ID univoco del documento |
source | string | Fonte (doj, house_oversight) |
release_batch | string | Identificatore del volume/batch |
original_filename | string | Nome del file originale |
page_count | int | Numero di pagine |
size | int | Dimensione del file in byte |
document_description | string | Descrizione generata dall’IA |
has_thumbnail | bool | Indica se è presente una miniatura |
Colonna aggiuntiva (include_text=True)
| Colonna | Tipo | Descrizione |
|---|
extracted_text | string | Testo completo estratto dal documento |
Frammenti di testo integrale
Quando imposti include_text=True, il client scarica questi frammenti e li concatena:
| Frammento | Contenuti |
|---|
VOL00008 | documenti del volume 8 del DOJ (U.S. Department of Justice) |
VOL00009 | documenti del volume 9 del DOJ |
VOL00010 | documenti del volume 10 del DOJ |
DataSet11 | documenti del dataset 11 del DOJ |
other | House Oversight, atti giudiziari, ecc. |
https://data.jmail.world/v1/documents.parquet
https://data.jmail.world/v1/documents-full/VOL00008.parquet
https://data.jmail.world/v1/documents-full/VOL00009.parquet
https://data.jmail.world/v1/documents-full/VOL00010.parquet
https://data.jmail.world/v1/documents-full/DataSet11.parquet
https://data.jmail.world/v1/documents-full/other.parquet