client.documents(include_text=False) -> pd.DataFrame
Lade Dokumentenmetadaten herunter. Optional mit vollständig extrahiertem Text aller Dokumente (lädt geshardete Dateien herunter).
Wenn True, werden einzelne Volltext-Datenfragmente heruntergeladen und zu einem einzigen DataFrame zusammengeführt. Dies führt zu einem deutlich größeren Download.
pd.DataFrame mit Dokumentmetadaten, optional mit extracted_text.
from jmail import JmailClient
client = JmailClient()
# Nur Metadaten
docs = client.documents()
# Mit vollständig extrahiertem Text (großer Download)
docs_full = client.documents(include_text=True)
# Dokumentbeschreibungen durchsuchen
flights = docs[docs.document_description.str.contains("flight", case=False, na=False)]
| Spalte | Typ | Beschreibung |
|---|
id | int | Eindeutige Dokument-ID |
source | string | Quelle (doj, house_oversight) |
release_batch | string | Volume-/Batch-Kennung |
original_filename | string | Ursprünglicher Dateiname |
page_count | int | Anzahl der Seiten |
size | int | Dateigröße in Bytes |
document_description | string | KI-generierte Beschreibung |
has_thumbnail | bool | Ob eine Miniaturansicht vorhanden ist |
Zusätzliche Spalte (include_text=True)
| Spalte | Typ | Beschreibung |
|---|
extracted_text | string | Vollständig extrahierter Text des Dokuments |
Wenn du include_text=True verwendest, lädt der Client diese Datenfragmente herunter und fügt sie zusammen:
| Datenfragment | Inhalt |
|---|
VOL00008 | Dokumente des DOJ (US-Justizministeriums), Band 8 |
VOL00009 | Dokumente des DOJ (US-Justizministeriums), Band 9 |
VOL00010 | Dokumente des DOJ (US-Justizministeriums), Band 10 |
DataSet11 | Dokumente des DOJ (US-Justizministeriums), Datensatz 11 |
other | House Oversight, Gerichtsakten usw. |
https://data.jmail.world/v1/documents.parquet
https://data.jmail.world/v1/documents-full/VOL00008.parquet
https://data.jmail.world/v1/documents-full/VOL00009.parquet
https://data.jmail.world/v1/documents-full/VOL00010.parquet
https://data.jmail.world/v1/documents-full/DataSet11.parquet
https://data.jmail.world/v1/documents-full/other.parquet