Passer au contenu principal
client.documents(include_text=False) -> pd.DataFrame
Télécharge les métadonnées des documents. En option, inclut le texte intégral extrait de tous les documents (télécharge des fichiers fragmentés).

Paramètres

include_text
bool
défaut:"False"
Lorsque True, télécharge les fragments de texte intégral individuels et les concatène dans un seul DataFrame. Cela représente un téléchargement beaucoup plus volumineux.

Renvoie

pd.DataFrame contenant les métadonnées du document, incluant éventuellement extracted_text.

Exemple

from jmail import JmailClient

client = JmailClient()

# Métadonnées uniquement
docs = client.documents()

# Avec texte intégral extrait (téléchargement volumineux)
docs_full = client.documents(include_text=True)

# Recherche dans les descriptions de documents
flights = docs[docs.document_description.str.contains("flight", case=False, na=False)]

Colonnes

ColonneTypeDescription
idintID de document unique
sourcestringSource (doj, house_oversight)
release_batchstringIdentifiant de volume/lot
original_filenamestringNom de fichier d’origine
page_countintNombre de pages
sizeintTaille du fichier en octets
document_descriptionstringDescription générée par l’IA
has_thumbnailboolIndique si une vignette existe

Colonne supplémentaire (include_text=True)

ColonneTypeDescription
extracted_textstringTexte intégral extrait du document

Fragments de texte intégral

Lorsque vous utilisez include_text=True, le client télécharge ces fragments et les concatène :
FragmentContenu
VOL00008Documents du volume 8 du DOJ (U.S. Department of Justice)
VOL00009Documents du volume 9 du DOJ
VOL00010Documents du volume 10 du DOJ
DataSet11Documents du jeu de données 11 du DOJ
otherHouse Oversight, dossiers judiciaires, etc.

URLs directes

https://data.jmail.world/v1/documents.parquet
https://data.jmail.world/v1/documents-full/VOL00008.parquet
https://data.jmail.world/v1/documents-full/VOL00009.parquet
https://data.jmail.world/v1/documents-full/VOL00010.parquet
https://data.jmail.world/v1/documents-full/DataSet11.parquet
https://data.jmail.world/v1/documents-full/other.parquet