Zum Hauptinhalt springen
client.documents(include_text=False) -> pd.DataFrame
Lade Dokumentenmetadaten herunter. Optional mit vollständig extrahiertem Text aller Dokumente (lädt geshardete Dateien herunter).

Parameter

include_text
bool
Standard:"False"
Wenn True, werden einzelne Volltext-Datenfragmente heruntergeladen und zu einem einzigen DataFrame zusammengeführt. Dies führt zu einem deutlich größeren Download.

Rückgabe

pd.DataFrame mit Dokumentmetadaten, optional mit extracted_text.

Beispiel

from jmail import JmailClient

client = JmailClient()

# Nur Metadaten
docs = client.documents()

# Mit vollständig extrahiertem Text (großer Download)
docs_full = client.documents(include_text=True)

# Dokumentbeschreibungen durchsuchen
flights = docs[docs.document_description.str.contains("flight", case=False, na=False)]

Spalten

SpalteTypBeschreibung
idintEindeutige Dokument-ID
sourcestringQuelle (doj, house_oversight)
release_batchstringVolume-/Batch-Kennung
original_filenamestringUrsprünglicher Dateiname
page_countintAnzahl der Seiten
sizeintDateigröße in Bytes
document_descriptionstringKI-generierte Beschreibung
has_thumbnailboolOb eine Miniaturansicht vorhanden ist

Zusätzliche Spalte (include_text=True)

SpalteTypBeschreibung
extracted_textstringVollständig extrahierter Text des Dokuments

Volltext-Datenfragmente

Wenn du include_text=True verwendest, lädt der Client diese Datenfragmente herunter und fügt sie zusammen:
DatenfragmentInhalt
VOL00008Dokumente des DOJ (US-Justizministeriums), Band 8
VOL00009Dokumente des DOJ (US-Justizministeriums), Band 9
VOL00010Dokumente des DOJ (US-Justizministeriums), Band 10
DataSet11Dokumente des DOJ (US-Justizministeriums), Datensatz 11
otherHouse Oversight, Gerichtsakten usw.

Direkt-URLs

https://data.jmail.world/v1/documents.parquet
https://data.jmail.world/v1/documents-full/VOL00008.parquet
https://data.jmail.world/v1/documents-full/VOL00009.parquet
https://data.jmail.world/v1/documents-full/VOL00010.parquet
https://data.jmail.world/v1/documents-full/DataSet11.parquet
https://data.jmail.world/v1/documents-full/other.parquet