Verfügbare Datensätze
https://data.jmail.world/v1/ bereitgestellt.
| Datensatz | Parquet-URL | NDJSON-URL |
|---|---|---|
| E-Mails (vollständig) | emails.parquet | emails.ndjson.gz |
| E-Mails (schlank) | emails-slim.parquet | emails-slim.ndjson.gz |
| Dokumente | documents.parquet | documents.ndjson.gz |
| Fotos | photos.parquet | photos.ndjson.gz |
| Personen | people.parquet | people.ndjson.gz |
| Gesichter in Fotos | photo_faces.parquet | photo_faces.ndjson.gz |
| iMessage-Konversationen | imessage_conversations.parquet | imessage_conversations.ndjson.gz |
| iMessage-Nachrichten | imessage_messages.parquet | imessage_messages.ndjson.gz |
| Sterneanzahl | star_counts.parquet | star_counts.ndjson.gz |
| Release-Batches | release_batches.parquet | release_batches.ndjson.gz |
Emails
Der primäre Datensatz. Enthält alle veröffentlichten E-Mails aus dem Epstein-Archiv.
emails.parquet — Vollständiger Datensatz mit Nachrichtentext (content_markdown), Absender, Empfängern, Betreff, Datumsangaben und Metadaten.
emails-slim.parquet — Dieselben E-Mails, aber ohne Spalten mit Nachrichtentext. Deutlich kleinerer Download, ideal für Netzwerkanalysen, Absender-/Empfänger-Graphen und Zeitachsenvisualisierungen.
Schlüsselspalten (slim)
| Column | Type | Description |
|---|---|---|
id | int | Eindeutige E-Mail-ID |
doc_id | string | Thread-Gruppierungskennung |
sender | string | Absenderadresse/-name |
subject | string | Betreffzeile der E-Mail |
to_recipients | json | Primäre Empfänger (JSON-Empfängerliste) |
cc_recipients | json | CC-Empfänger (JSON-Empfängerliste) |
bcc_recipients | json | BCC-Empfänger (JSON-Empfängerliste) |
sent_at | timestamp | Versandzeitpunkt |
account_email | string | Quellkonto |
email_drop_id | string | Quellkennung |
epstein_is_sender | bool | Ob Epstein diese E-Mail gesendet hat |
Zusätzliche Spalten (full)
| Spalte | Typ | Beschreibung |
|---|---|---|
content_markdown | string | E-Mail-Inhalt als Markdown |
content_html | string | E-Mail-Inhalt als HTML |
attachments | int | Anzahl der Anhänge |
Dokumente
Metadaten für alle Dokumente im Archiv (Veröffentlichungen des DOJ, House Oversight, Gerichtsakten).
| Spalte | Typ | Beschreibung |
|---|---|---|
id | int | Eindeutige Dokument-ID |
source | string | Quelle (doj, house_oversight) |
release_batch | string | Band-/Batch-Kennung |
original_filename | string | Ursprünglicher Dateiname |
page_count | int | Anzahl der Seiten |
size | int | Dateigröße in Bytes |
document_description | string | KI-generierte Beschreibung |
has_thumbnail | bool | Ob ein Vorschaubild vorhanden ist |
Volltext-Datenfragmente für Dokumente
| Datenfragment | URL | Inhalt |
|---|---|---|
| VOL00008 | documents-full/VOL00008.parquet | DOJ Band 8 |
| VOL00009 | documents-full/VOL00009.parquet | DOJ Band 9 |
| VOL00010 | documents-full/VOL00010.parquet | DOJ Band 10 |
| DataSet11 | documents-full/DataSet11.parquet | DOJ-Datensatz 11 |
| other | documents-full/other.parquet | House Oversight, Gerichtsakten usw. |
client.documents(include_text=True) automatisch zusammen.
Fotos
Foto-Metadaten aus behördlichen Veröffentlichungen mit KI-generierten Beschreibungen.
| Column | Type | Description |
|---|---|---|
id | int | Eindeutige Foto-ID |
source | string | Quellkennung |
release_batch | string | Band/Batch |
original_filename | string | Ursprünglicher Dateiname |
content_type | string | MIME-Typ |
width | int | Bildbreite in Pixeln |
height | int | Bildhöhe in Pixeln |
image_description | string | KI-generierte Beschreibung |
Personen
| Spalte | Typ | Beschreibung |
|---|---|---|
id | int | Eindeutige Personen-ID |
name | string | Erkannter Name |
source | string | Erkennungsquelle |
photo_count | int | Anzahl der Fotos, in denen diese Person vorkommt |
Gesichter in Fotos
| Column | Type | Description |
|---|---|---|
id | int | Eindeutige Gesichts-ID |
photo_id | int | FK zu Fotos |
person_id | int | FK zu Personen |
bbox_left | float | Linker Rand des Begrenzungsrahmens (normalisiert, 0–1) |
bbox_top | float | Oberer Rand des Begrenzungsrahmens (normalisiert, 0–1) |
bbox_width | float | Breite des Begrenzungsrahmens (normalisiert, 0–1) |
bbox_height | float | Höhe des Begrenzungsrahmens (normalisiert, 0–1) |
confidence | float | Konfidenzwert der Erkennung |
iMessage-Konversationen
| Column | Type | Description |
|---|---|---|
id | int | Eindeutige Konversations-ID |
slug | string | URL-sicherer Konversationsbezeichner |
name | string | Kontaktname |
bio | string | Kurzprofil/Beschreibung des Kontakts |
photo | string | URL zum Kontaktfoto |
last_message | string | Vorschau der letzten Nachricht |
last_message_time | string | Zeitstempel der letzten Nachricht |
pinned | bool | Ob die Konversation angeheftet ist |
confirmed | bool | Ob die Kontaktidentität bestätigt ist |
source_files | json | Quelldateien, aus denen diese Konversation extrahiert wurde |
message_count | int | Gesamtanzahl der Nachrichten in dieser Konversation |
iMessage-Nachrichten
| Column | Type | Description |
|---|---|---|
id | string | Eindeutige Nachrichten-ID ({slug}#{index}) |
conversation_slug | string | FK auf Konversationen (slug) |
message_index | int | Nachrichtenposition innerhalb der Konversation |
text | string | Textinhalt der Nachricht |
sender | string | me (Epstein) oder them (Kontakt) |
time | string | Ursprüngliche Zeitstempel-Zeichenkette |
timestamp | timestamp | Geparster Zeitstempel |
source_file | string | Quelldatei, aus der diese Nachricht extrahiert wurde |
sender_name | string | Anzeigename des Absenders |
Sterneanzahl
| Column | Type | Description |
|---|---|---|
entity_type | string | Typ (email_message, email_thread, photo, document) |
entity_id | int | Entitäts-ID |
count | int | Anzahl der Sterne |
Release-Batches
| Column | Type | Description |
|---|---|---|
id | int | Batch-ID |
name | string | Batchname |
description | string | Batchbeschreibung |
released_at | timestamp | Datum der öffentlichen Freigabe |
