Passer au contenu principal

Jeux de données disponibles

Tous les fichiers sont accessibles depuis https://data.jmail.world/v1/.

E-mails

Le jeu de données principal. Contient tous les e-mails publiés de l’archive Epstein. emails.parquet — Jeu de données complet avec corps du message (content_markdown), expéditeur, destinataires, objet, dates et métadonnées. emails-slim.parquet — Les mêmes e-mails mais sans les colonnes de corps du message. Fichier beaucoup plus léger à télécharger, idéal pour l’analyse de réseau, les graphes expéditeur/destinataire et les visualisations chronologiques.

Colonnes clés (slim)

ColonneTypeDescription
idintIdentifiant unique de l’e-mail
doc_idstringIdentifiant de regroupement de conversation
senderstringAdresse e-mail / nom de l’expéditeur
subjectstringObjet de l’e-mail
to_recipientsjsonListe des destinataires principaux
cc_recipientsjsonListe des destinataires en copie (CC)
bcc_recipientsjsonListe des destinataires en copie cachée (BCC)
sent_attimestampDate d’envoi
account_emailstringCompte source
email_drop_idstringIdentifiant de source
epstein_is_senderboolIndique si Epstein est l’expéditeur de cet e-mail

Colonnes supplémentaires (complètes)

ColonneTypeDescription
content_markdownstringCorps de l’e-mail au format Markdown
content_htmlstringCorps de l’e-mail au format HTML
attachmentsintNombre de pièces jointes

Documents

Métadonnées pour tous les documents de l’archive (publications du DOJ (U.S. Department of Justice), House Oversight, dossiers judiciaires).
ColonneTypeDescription
idintIdentifiant unique du document
sourcestringSource (doj, house_oversight)
release_batchstringIdentifiant de volume/lot
original_filenamestringNom de fichier d’origine
page_countintNombre de pages
sizeintTaille du fichier en octets
document_descriptionstringDescription générée par l’IA
has_thumbnailboolIndique si une vignette est disponible

Fragments de texte intégral des documents

Le texte intégral extrait est trop volumineux pour un seul fichier. Utilisez les fichiers fragmentés :
FragmentURLContenu
VOL00008documents-full/VOL00008.parquetVolume 8 du DOJ (U.S. Department of Justice)
VOL00009documents-full/VOL00009.parquetVolume 9 du DOJ
VOL00010documents-full/VOL00010.parquetVolume 10 du DOJ
DataSet11documents-full/DataSet11.parquetJeu de données 11 du DOJ
otherdocuments-full/other.parquetHouse Oversight, documents judiciaires, etc.
Le client Python gère automatiquement la concaténation des fragments via client.documents(include_text=True).

Photos

Métadonnées de photos provenant de publications gouvernementales, avec des descriptions générées par l’IA.
ColumnTypeDescription
idintIdentifiant unique de la photo
sourcestringIdentifiant de la source
release_batchstringVolume/lot
original_filenamestringNom de fichier d’origine
content_typestringtype MIME
widthintLargeur de l’image en pixels
heightintHauteur de l’image en pixels
image_descriptionstringDescription générée par l’IA

Personnes

Personnes identifiées par reconnaissance faciale via AWS Rekognition.
ColonneTypeDescription
idintIdentifiant de personne unique
namestringNom identifié
sourcestringSource de détection
photo_countintNombre de photos contenant cette personne

Visages sur les photos

Boîtes englobantes associant les visages détectés sur les photos aux personnes identifiées.
ColonneTypeDescription
idintID unique du visage
photo_idintFK vers la table des photos
person_idintFK vers la table des personnes
bbox_leftfloatBord gauche de la boîte englobante (valeur normalisée entre 0 et 1)
bbox_topfloatBord supérieur de la boîte englobante (valeur normalisée entre 0 et 1)
bbox_widthfloatLargeur de la boîte englobante (valeur normalisée entre 0 et 1)
bbox_heightfloatHauteur de la boîte englobante (valeur normalisée entre 0 et 1)
confidencefloatScore de confiance de la détection

Conversations iMessage

Métadonnées des conversations iMessage récupérées depuis l’archive.
ColonneTypeDescription
idintIdentifiant unique de la conversation
slugstringIdentifiant de conversation compatible avec les URL
namestringNom du contact
biostringBiographie/description du contact
photostringURL de la photo du contact
last_messagestringAperçu du dernier message
last_message_timestringHorodatage du dernier message
pinnedboolIndique si la conversation était épinglée
confirmedboolIndique si l’identité du contact est confirmée
source_filesjsonFichiers source à partir desquels cette conversation a été extraite
message_countintNombre total de messages dans cette conversation

Messages iMessage

Messages texte iMessage individuels avec informations sur l’expéditeur et les horodatages.
ColumnTypeDescription
idstringID de message unique ({slug}#{index})
conversation_slugstringClé étrangère vers les conversations (slug)
message_indexintPosition du message dans la conversation
textstringContenu textuel du message
senderstringme (Epstein) ou them (contact)
timestringChaîne d’horodatage d’origine
timestamptimestampHorodatage interprété
source_filestringFichier source dont ce message a été extrait
sender_namestringNom d’affichage de l’expéditeur

Nombre d’étoiles

Nombre d’étoiles (indice d’intérêt) renseigné de manière collaborative par les utilisateurs de jmail.world.
ColonneTypeDescription
entity_typestringType (email_message, email_thread, photo, document)
entity_idintIdentifiant de l’entité
countintNombre d’étoiles

Lots de diffusion

Métadonnées sur chaque lot de diffusion.
ColonneTypeDescription
idintIdentifiant du lot
namestringNom du lot
descriptionstringDescription du lot
released_attimestampDate de mise à disposition publique