client.documents(include_text=False) -> pd.DataFrame
Télécharge les métadonnées des documents. En option, inclut le texte intégral extrait de tous les documents (télécharge des fichiers fragmentés).
Lorsque True, télécharge les fragments de texte intégral individuels et les concatène dans un seul DataFrame. Cela représente un téléchargement beaucoup plus volumineux.
pd.DataFrame contenant les métadonnées du document, incluant éventuellement extracted_text.
from jmail import JmailClient
client = JmailClient()
# Métadonnées uniquement
docs = client.documents()
# Avec texte intégral extrait (téléchargement volumineux)
docs_full = client.documents(include_text=True)
# Recherche dans les descriptions de documents
flights = docs[docs.document_description.str.contains("flight", case=False, na=False)]
| Colonne | Type | Description |
|---|
id | int | ID de document unique |
source | string | Source (doj, house_oversight) |
release_batch | string | Identifiant de volume/lot |
original_filename | string | Nom de fichier d’origine |
page_count | int | Nombre de pages |
size | int | Taille du fichier en octets |
document_description | string | Description générée par l’IA |
has_thumbnail | bool | Indique si une vignette existe |
Colonne supplémentaire (include_text=True)
| Colonne | Type | Description |
|---|
extracted_text | string | Texte intégral extrait du document |
Fragments de texte intégral
Lorsque vous utilisez include_text=True, le client télécharge ces fragments et les concatène :
| Fragment | Contenu |
|---|
VOL00008 | Documents du volume 8 du DOJ (U.S. Department of Justice) |
VOL00009 | Documents du volume 9 du DOJ |
VOL00010 | Documents du volume 10 du DOJ |
DataSet11 | Documents du jeu de données 11 du DOJ |
other | House Oversight, dossiers judiciaires, etc. |
https://data.jmail.world/v1/documents.parquet
https://data.jmail.world/v1/documents-full/VOL00008.parquet
https://data.jmail.world/v1/documents-full/VOL00009.parquet
https://data.jmail.world/v1/documents-full/VOL00010.parquet
https://data.jmail.world/v1/documents-full/DataSet11.parquet
https://data.jmail.world/v1/documents-full/other.parquet