Jeux de données disponibles
https://data.jmail.world/v1/.
| Jeu de données | URL Parquet | URL NDJSON |
|---|---|---|
| Emails (complets) | emails.parquet | emails.ndjson.gz |
| Emails (allégés) | emails-slim.parquet | emails-slim.ndjson.gz |
| Documents | documents.parquet | documents.ndjson.gz |
| Photos | photos.parquet | photos.ndjson.gz |
| Personnes | people.parquet | people.ndjson.gz |
| Visages sur photos | photo_faces.parquet | photo_faces.ndjson.gz |
| Conversations iMessage | imessage_conversations.parquet | imessage_conversations.ndjson.gz |
| Messages iMessage | imessage_messages.parquet | imessage_messages.ndjson.gz |
| Nombre d’étoiles | star_counts.parquet | star_counts.ndjson.gz |
| Lots de publication | release_batches.parquet | release_batches.ndjson.gz |
E-mails
Le jeu de données principal. Contient tous les e-mails publiés de l’archive Epstein.
emails.parquet — Jeu de données complet avec corps du message (content_markdown), expéditeur, destinataires, objet, dates et métadonnées.
emails-slim.parquet — Les mêmes e-mails mais sans les colonnes de corps du message. Fichier beaucoup plus léger à télécharger, idéal pour l’analyse de réseau, les graphes expéditeur/destinataire et les visualisations chronologiques.
Colonnes clés (slim)
| Colonne | Type | Description |
|---|---|---|
id | int | Identifiant unique de l’e-mail |
doc_id | string | Identifiant de regroupement de conversation |
sender | string | Adresse e-mail / nom de l’expéditeur |
subject | string | Objet de l’e-mail |
to_recipients | json | Liste des destinataires principaux |
cc_recipients | json | Liste des destinataires en copie (CC) |
bcc_recipients | json | Liste des destinataires en copie cachée (BCC) |
sent_at | timestamp | Date d’envoi |
account_email | string | Compte source |
email_drop_id | string | Identifiant de source |
epstein_is_sender | bool | Indique si Epstein est l’expéditeur de cet e-mail |
Colonnes supplémentaires (complètes)
| Colonne | Type | Description |
|---|---|---|
content_markdown | string | Corps de l’e-mail au format Markdown |
content_html | string | Corps de l’e-mail au format HTML |
attachments | int | Nombre de pièces jointes |
Documents
Métadonnées pour tous les documents de l’archive (publications du DOJ (U.S. Department of Justice), House Oversight, dossiers judiciaires).
| Colonne | Type | Description |
|---|---|---|
id | int | Identifiant unique du document |
source | string | Source (doj, house_oversight) |
release_batch | string | Identifiant de volume/lot |
original_filename | string | Nom de fichier d’origine |
page_count | int | Nombre de pages |
size | int | Taille du fichier en octets |
document_description | string | Description générée par l’IA |
has_thumbnail | bool | Indique si une vignette est disponible |
Fragments de texte intégral des documents
| Fragment | URL | Contenu |
|---|---|---|
| VOL00008 | documents-full/VOL00008.parquet | Volume 8 du DOJ (U.S. Department of Justice) |
| VOL00009 | documents-full/VOL00009.parquet | Volume 9 du DOJ |
| VOL00010 | documents-full/VOL00010.parquet | Volume 10 du DOJ |
| DataSet11 | documents-full/DataSet11.parquet | Jeu de données 11 du DOJ |
| other | documents-full/other.parquet | House Oversight, documents judiciaires, etc. |
client.documents(include_text=True).
Photos
Métadonnées de photos provenant de publications gouvernementales, avec des descriptions générées par l’IA.
| Column | Type | Description |
|---|---|---|
id | int | Identifiant unique de la photo |
source | string | Identifiant de la source |
release_batch | string | Volume/lot |
original_filename | string | Nom de fichier d’origine |
content_type | string | type MIME |
width | int | Largeur de l’image en pixels |
height | int | Hauteur de l’image en pixels |
image_description | string | Description générée par l’IA |
Personnes
| Colonne | Type | Description |
|---|---|---|
id | int | Identifiant de personne unique |
name | string | Nom identifié |
source | string | Source de détection |
photo_count | int | Nombre de photos contenant cette personne |
Visages sur les photos
| Colonne | Type | Description |
|---|---|---|
id | int | ID unique du visage |
photo_id | int | FK vers la table des photos |
person_id | int | FK vers la table des personnes |
bbox_left | float | Bord gauche de la boîte englobante (valeur normalisée entre 0 et 1) |
bbox_top | float | Bord supérieur de la boîte englobante (valeur normalisée entre 0 et 1) |
bbox_width | float | Largeur de la boîte englobante (valeur normalisée entre 0 et 1) |
bbox_height | float | Hauteur de la boîte englobante (valeur normalisée entre 0 et 1) |
confidence | float | Score de confiance de la détection |
Conversations iMessage
| Colonne | Type | Description |
|---|---|---|
id | int | Identifiant unique de la conversation |
slug | string | Identifiant de conversation compatible avec les URL |
name | string | Nom du contact |
bio | string | Biographie/description du contact |
photo | string | URL de la photo du contact |
last_message | string | Aperçu du dernier message |
last_message_time | string | Horodatage du dernier message |
pinned | bool | Indique si la conversation était épinglée |
confirmed | bool | Indique si l’identité du contact est confirmée |
source_files | json | Fichiers source à partir desquels cette conversation a été extraite |
message_count | int | Nombre total de messages dans cette conversation |
Messages iMessage
| Column | Type | Description |
|---|---|---|
id | string | ID de message unique ({slug}#{index}) |
conversation_slug | string | Clé étrangère vers les conversations (slug) |
message_index | int | Position du message dans la conversation |
text | string | Contenu textuel du message |
sender | string | me (Epstein) ou them (contact) |
time | string | Chaîne d’horodatage d’origine |
timestamp | timestamp | Horodatage interprété |
source_file | string | Fichier source dont ce message a été extrait |
sender_name | string | Nom d’affichage de l’expéditeur |
Nombre d’étoiles
| Colonne | Type | Description |
|---|---|---|
entity_type | string | Type (email_message, email_thread, photo, document) |
entity_id | int | Identifiant de l’entité |
count | int | Nombre d’étoiles |
Lots de diffusion
| Colonne | Type | Description |
|---|---|---|
id | int | Identifiant du lot |
name | string | Nom du lot |
description | string | Description du lot |
released_at | timestamp | Date de mise à disposition publique |
