Datensätze

Verfügbare Datensätze

Alle Dateien werden unter https://data.jmail.world/v1/ bereitgestellt.

Datensatz	Parquet-URL	NDJSON-URL
E-Mails (vollständig)	`emails.parquet`	`emails.ndjson.gz`
E-Mails (schlank)	`emails-slim.parquet`	`emails-slim.ndjson.gz`
Dokumente	`documents.parquet`	`documents.ndjson.gz`
Fotos	`photos.parquet`	`photos.ndjson.gz`
Personen	`people.parquet`	`people.ndjson.gz`
Gesichter in Fotos	`photo_faces.parquet`	`photo_faces.ndjson.gz`
iMessage-Konversationen	`imessage_conversations.parquet`	`imessage_conversations.ndjson.gz`
iMessage-Nachrichten	`imessage_messages.parquet`	`imessage_messages.ndjson.gz`
Sterneanzahl	`star_counts.parquet`	`star_counts.ndjson.gz`
Release-Batches	`release_batches.parquet`	`release_batches.ndjson.gz`

Emails

Der primäre Datensatz. Enthält alle veröffentlichten E-Mails aus dem Epstein-Archiv. emails.parquet — Vollständiger Datensatz mit Nachrichtentext (content_markdown), Absender, Empfängern, Betreff, Datumsangaben und Metadaten. emails-slim.parquet — Dieselben E-Mails, aber ohne Spalten mit Nachrichtentext. Deutlich kleinerer Download, ideal für Netzwerkanalysen, Absender-/Empfänger-Graphen und Zeitachsenvisualisierungen.

Schlüsselspalten (slim)

Column	Type	Description
`id`	int	Eindeutige E-Mail-ID
`doc_id`	string	Thread-Gruppierungskennung
`sender`	string	Absenderadresse/-name
`subject`	string	Betreffzeile der E-Mail
`to_recipients`	json	Primäre Empfänger (JSON-Empfängerliste)
`cc_recipients`	json	CC-Empfänger (JSON-Empfängerliste)
`bcc_recipients`	json	BCC-Empfänger (JSON-Empfängerliste)
`sent_at`	timestamp	Versandzeitpunkt
`account_email`	string	Quellkonto
`email_drop_id`	string	Quellkennung
`epstein_is_sender`	bool	Ob Epstein diese E-Mail gesendet hat

Zusätzliche Spalten (full)

Spalte	Typ	Beschreibung
`content_markdown`	string	E-Mail-Inhalt als Markdown
`content_html`	string	E-Mail-Inhalt als HTML
`attachments`	int	Anzahl der Anhänge

Dokumente

Metadaten für alle Dokumente im Archiv (Veröffentlichungen des DOJ, House Oversight, Gerichtsakten).

Spalte	Typ	Beschreibung
`id`	int	Eindeutige Dokument-ID
`source`	string	Quelle (`doj`, `house_oversight`)
`release_batch`	string	Band-/Batch-Kennung
`original_filename`	string	Ursprünglicher Dateiname
`page_count`	int	Anzahl der Seiten
`size`	int	Dateigröße in Bytes
`document_description`	string	KI-generierte Beschreibung
`has_thumbnail`	bool	Ob ein Vorschaubild vorhanden ist

Volltext-Datenfragmente für Dokumente

Der extrahierte Volltext ist zu groß für eine einzelne Datei. Verwende die geshardeten Dateien:

Datenfragment	URL	Inhalt
VOL00008	`documents-full/VOL00008.parquet`	DOJ Band 8
VOL00009	`documents-full/VOL00009.parquet`	DOJ Band 9
VOL00010	`documents-full/VOL00010.parquet`	DOJ Band 10
DataSet11	`documents-full/DataSet11.parquet`	DOJ-Datensatz 11
other	`documents-full/other.parquet`	House Oversight, Gerichtsakten usw.

Der Python-Client führt die Datenfragmente über client.documents(include_text=True) automatisch zusammen.

Fotos

Foto-Metadaten aus behördlichen Veröffentlichungen mit KI-generierten Beschreibungen.

Column	Type	Description
`id`	int	Eindeutige Foto-ID
`source`	string	Quellkennung
`release_batch`	string	Band/Batch
`original_filename`	string	Ursprünglicher Dateiname
`content_type`	string	MIME-Typ
`width`	int	Bildbreite in Pixeln
`height`	int	Bildhöhe in Pixeln
`image_description`	string	KI-generierte Beschreibung

Personen

Personen, die über die Gesichtserkennung von AWS Rekognition identifiziert wurden.

Spalte	Typ	Beschreibung
`id`	int	Eindeutige Personen-ID
`name`	string	Erkannter Name
`source`	string	Erkennungsquelle
`photo_count`	int	Anzahl der Fotos, in denen diese Person vorkommt

Gesichter in Fotos

Begrenzungsrahmen, die erkannte Gesichter in Fotos mit identifizierten Personen verknüpfen.

Column	Type	Description
`id`	int	Eindeutige Gesichts-ID
`photo_id`	int	FK zu Fotos
`person_id`	int	FK zu Personen
`bbox_left`	float	Linker Rand des Begrenzungsrahmens (normalisiert, 0–1)
`bbox_top`	float	Oberer Rand des Begrenzungsrahmens (normalisiert, 0–1)
`bbox_width`	float	Breite des Begrenzungsrahmens (normalisiert, 0–1)
`bbox_height`	float	Höhe des Begrenzungsrahmens (normalisiert, 0–1)
`confidence`	float	Konfidenzwert der Erkennung

iMessage-Konversationen

Metadaten zu iMessage-Konversationen, die aus dem Archiv rekonstruiert wurden.

Column	Type	Description
`id`	int	Eindeutige Konversations-ID
`slug`	string	URL-sicherer Konversationsbezeichner
`name`	string	Kontaktname
`bio`	string	Kurzprofil/Beschreibung des Kontakts
`photo`	string	URL zum Kontaktfoto
`last_message`	string	Vorschau der letzten Nachricht
`last_message_time`	string	Zeitstempel der letzten Nachricht
`pinned`	bool	Ob die Konversation angeheftet ist
`confirmed`	bool	Ob die Kontaktidentität bestätigt ist
`source_files`	json	Quelldateien, aus denen diese Konversation extrahiert wurde
`message_count`	int	Gesamtanzahl der Nachrichten in dieser Konversation

iMessage-Nachrichten

Einzelne iMessage-Textnachrichten mit Absenderinformationen und Zeitstempeln.

Column	Type	Description
`id`	string	Eindeutige Nachrichten-ID (`{slug}#{index}`)
`conversation_slug`	string	FK auf Konversationen (slug)
`message_index`	int	Nachrichtenposition innerhalb der Konversation
`text`	string	Textinhalt der Nachricht
`sender`	string	`me` (Epstein) oder `them` (Kontakt)
`time`	string	Ursprüngliche Zeitstempel-Zeichenkette
`timestamp`	timestamp	Geparster Zeitstempel
`source_file`	string	Quelldatei, aus der diese Nachricht extrahiert wurde
`sender_name`	string	Anzeigename des Absenders

Sterneanzahl

Von jmail.world-Nutzern crowdsourcede Sterne-/Interessenzahlen.

Column	Type	Description
`entity_type`	string	Typ (`email_message`, `email_thread`, `photo`, `document`)
`entity_id`	int	Entitäts-ID
`count`	int	Anzahl der Sterne

Release-Batches

Metadaten zu jedem Release-Batch.

Column	Type	Description
`id`	int	Batch-ID
`name`	string	Batchname
`description`	string	Batchbeschreibung
`released_at`	timestamp	Datum der öffentlichen Freigabe

Erste Schritte

Zugriffsmethoden

Updates

Datensätze

Verfügbare Datensätze

Emails

Schlüsselspalten (slim)

Zusätzliche Spalten (full)

Dokumente

Volltext-Datenfragmente für Dokumente

Fotos

Personen

Gesichter in Fotos

iMessage-Konversationen

iMessage-Nachrichten

Sterneanzahl

Release-Batches

Erste Schritte

Datensätze

Zugriffsmethoden

Updates

​Verfügbare Datensätze

​ Emails

​Schlüsselspalten (slim)

​Zusätzliche Spalten (full)

​ Dokumente

​Volltext-Datenfragmente für Dokumente

​ Fotos

​Personen

​Gesichter in Fotos

​iMessage-Konversationen

​iMessage-Nachrichten

​Sterneanzahl

​Release-Batches

Verfügbare Datensätze

Emails

Schlüsselspalten (slim)

Zusätzliche Spalten (full)

Dokumente

Volltext-Datenfragmente für Dokumente

Fotos

Personen

Gesichter in Fotos

iMessage-Konversationen

iMessage-Nachrichten

Sterneanzahl

Release-Batches