Zum Hauptinhalt springen

Verfügbare Datensätze

Alle Dateien werden unter https://data.jmail.world/v1/ bereitgestellt.

Emails

Der primäre Datensatz. Enthält alle veröffentlichten E-Mails aus dem Epstein-Archiv. emails.parquet — Vollständiger Datensatz mit Nachrichtentext (content_markdown), Absender, Empfängern, Betreff, Datumsangaben und Metadaten. emails-slim.parquet — Dieselben E-Mails, aber ohne Spalten mit Nachrichtentext. Deutlich kleinerer Download, ideal für Netzwerkanalysen, Absender-/Empfänger-Graphen und Zeitachsenvisualisierungen.

Schlüsselspalten (slim)

ColumnTypeDescription
idintEindeutige E-Mail-ID
doc_idstringThread-Gruppierungskennung
senderstringAbsenderadresse/-name
subjectstringBetreffzeile der E-Mail
to_recipientsjsonPrimäre Empfänger (JSON-Empfängerliste)
cc_recipientsjsonCC-Empfänger (JSON-Empfängerliste)
bcc_recipientsjsonBCC-Empfänger (JSON-Empfängerliste)
sent_attimestampVersandzeitpunkt
account_emailstringQuellkonto
email_drop_idstringQuellkennung
epstein_is_senderboolOb Epstein diese E-Mail gesendet hat

Zusätzliche Spalten (full)

SpalteTypBeschreibung
content_markdownstringE-Mail-Inhalt als Markdown
content_htmlstringE-Mail-Inhalt als HTML
attachmentsintAnzahl der Anhänge

Dokumente

Metadaten für alle Dokumente im Archiv (Veröffentlichungen des DOJ, House Oversight, Gerichtsakten).
SpalteTypBeschreibung
idintEindeutige Dokument-ID
sourcestringQuelle (doj, house_oversight)
release_batchstringBand-/Batch-Kennung
original_filenamestringUrsprünglicher Dateiname
page_countintAnzahl der Seiten
sizeintDateigröße in Bytes
document_descriptionstringKI-generierte Beschreibung
has_thumbnailboolOb ein Vorschaubild vorhanden ist

Volltext-Datenfragmente für Dokumente

Der extrahierte Volltext ist zu groß für eine einzelne Datei. Verwende die geshardeten Dateien:
DatenfragmentURLInhalt
VOL00008documents-full/VOL00008.parquetDOJ Band 8
VOL00009documents-full/VOL00009.parquetDOJ Band 9
VOL00010documents-full/VOL00010.parquetDOJ Band 10
DataSet11documents-full/DataSet11.parquetDOJ-Datensatz 11
otherdocuments-full/other.parquetHouse Oversight, Gerichtsakten usw.
Der Python-Client führt die Datenfragmente über client.documents(include_text=True) automatisch zusammen.

Fotos

Foto-Metadaten aus behördlichen Veröffentlichungen mit KI-generierten Beschreibungen.
ColumnTypeDescription
idintEindeutige Foto-ID
sourcestringQuellkennung
release_batchstringBand/Batch
original_filenamestringUrsprünglicher Dateiname
content_typestringMIME-Typ
widthintBildbreite in Pixeln
heightintBildhöhe in Pixeln
image_descriptionstringKI-generierte Beschreibung

Personen

Personen, die über die Gesichtserkennung von AWS Rekognition identifiziert wurden.
SpalteTypBeschreibung
idintEindeutige Personen-ID
namestringErkannter Name
sourcestringErkennungsquelle
photo_countintAnzahl der Fotos, in denen diese Person vorkommt

Gesichter in Fotos

Begrenzungsrahmen, die erkannte Gesichter in Fotos mit identifizierten Personen verknüpfen.
ColumnTypeDescription
idintEindeutige Gesichts-ID
photo_idintFK zu Fotos
person_idintFK zu Personen
bbox_leftfloatLinker Rand des Begrenzungsrahmens (normalisiert, 0–1)
bbox_topfloatOberer Rand des Begrenzungsrahmens (normalisiert, 0–1)
bbox_widthfloatBreite des Begrenzungsrahmens (normalisiert, 0–1)
bbox_heightfloatHöhe des Begrenzungsrahmens (normalisiert, 0–1)
confidencefloatKonfidenzwert der Erkennung

iMessage-Konversationen

Metadaten zu iMessage-Konversationen, die aus dem Archiv rekonstruiert wurden.
ColumnTypeDescription
idintEindeutige Konversations-ID
slugstringURL-sicherer Konversationsbezeichner
namestringKontaktname
biostringKurzprofil/Beschreibung des Kontakts
photostringURL zum Kontaktfoto
last_messagestringVorschau der letzten Nachricht
last_message_timestringZeitstempel der letzten Nachricht
pinnedboolOb die Konversation angeheftet ist
confirmedboolOb die Kontaktidentität bestätigt ist
source_filesjsonQuelldateien, aus denen diese Konversation extrahiert wurde
message_countintGesamtanzahl der Nachrichten in dieser Konversation

iMessage-Nachrichten

Einzelne iMessage-Textnachrichten mit Absenderinformationen und Zeitstempeln.
ColumnTypeDescription
idstringEindeutige Nachrichten-ID ({slug}#{index})
conversation_slugstringFK auf Konversationen (slug)
message_indexintNachrichtenposition innerhalb der Konversation
textstringTextinhalt der Nachricht
senderstringme (Epstein) oder them (Kontakt)
timestringUrsprüngliche Zeitstempel-Zeichenkette
timestamptimestampGeparster Zeitstempel
source_filestringQuelldatei, aus der diese Nachricht extrahiert wurde
sender_namestringAnzeigename des Absenders

Sterneanzahl

Von jmail.world-Nutzern crowdsourcede Sterne-/Interessenzahlen.
ColumnTypeDescription
entity_typestringTyp (email_message, email_thread, photo, document)
entity_idintEntitäts-ID
countintAnzahl der Sterne

Release-Batches

Metadaten zu jedem Release-Batch.
ColumnTypeDescription
idintBatch-ID
namestringBatchname
descriptionstringBatchbeschreibung
released_attimestampDatum der öffentlichen Freigabe