Conjuntos de datos disponibles
https://data.jmail.world/v1/.
| Conjunto de datos | URL de Parquet | URL de NDJSON |
|---|---|---|
| Emails (completo) | emails.parquet | emails.ndjson.gz |
| Emails (reducido) | emails-slim.parquet | emails-slim.ndjson.gz |
| Documentos | documents.parquet | documents.ndjson.gz |
| Fotos | photos.parquet | photos.ndjson.gz |
| Personas | people.parquet | people.ndjson.gz |
| Rostros en fotos | photo_faces.parquet | photo_faces.ndjson.gz |
| Conversaciones de iMessage | imessage_conversations.parquet | imessage_conversations.ndjson.gz |
| Mensajes de iMessage | imessage_messages.parquet | imessage_messages.ndjson.gz |
| Conteos de estrellas | star_counts.parquet | star_counts.ndjson.gz |
| Lotes de publicación | release_batches.parquet | release_batches.ndjson.gz |
Emails
El conjunto de datos principal. Contiene todos los correos electrónicos publicados del archivo de Epstein.
emails.parquet — Conjunto de datos completo con texto del cuerpo (content_markdown), remitente, destinatarios, asunto, fechas y metadatos.
emails-slim.parquet — Los mismos correos electrónicos pero sin las columnas de texto del cuerpo. Descarga mucho más ligera, ideal para análisis de redes, grafos de remitente/destinatario y visualizaciones de líneas de tiempo.
Columnas clave (slim)
| Columna | Tipo | Descripción |
|---|---|---|
id | int | ID único del correo electrónico |
doc_id | string | ID de agrupación de conversación |
sender | string | Correo/nombre del remitente |
subject | string | Asunto del correo |
to_recipients | json | Destinatarios principales (To) |
cc_recipients | json | Destinatarios en copia (CC) |
bcc_recipients | json | Destinatarios en copia oculta (BCC) |
sent_at | timestamp | Fecha de envío |
account_email | string | Cuenta de origen |
email_drop_id | string | Identificador de origen |
epstein_is_sender | bool | Indica si Epstein envió este correo |
Columnas adicionales (completo)
| Columna | Tipo | Descripción |
|---|---|---|
content_markdown | string | Cuerpo del correo electrónico en Markdown |
content_html | string | Cuerpo del correo electrónico en HTML |
attachments | int | Cantidad de adjuntos |
Documentos
Metadatos de todos los documentos del archivo (publicaciones del DOJ, Departamento de Justicia de EE. UU.; House Oversight, registros judiciales).
| Column | Type | Description |
|---|---|---|
id | int | ID único del documento |
source | string | Fuente (doj, house_oversight) |
release_batch | string | Identificador de volumen/lote |
original_filename | string | Nombre de archivo original |
page_count | int | Número de páginas |
size | int | Tamaño del archivo en bytes |
document_description | string | Descripción generada por IA |
has_thumbnail | bool | Indica si existe una miniatura |
Fragmentos de texto completo de documentos
| Fragmento | URL | Contenido |
|---|---|---|
| VOL00008 | documents-full/VOL00008.parquet | Volumen 8 del DOJ |
| VOL00009 | documents-full/VOL00009.parquet | Volumen 9 del DOJ |
| VOL00010 | documents-full/VOL00010.parquet | Volumen 10 del DOJ |
| DataSet11 | documents-full/DataSet11.parquet | Conjunto de datos 11 del DOJ |
| other | documents-full/other.parquet | House Oversight, registros judiciales, etc. |
client.documents(include_text=True).
Fotos
Metadatos de fotos de publicaciones gubernamentales con descripciones generadas por IA.
| Column | Type | Description |
|---|---|---|
id | int | ID único de la foto |
source | string | Identificador de la fuente |
release_batch | string | Volumen/lote |
original_filename | string | Nombre de archivo original |
content_type | string | tipo MIME |
width | int | Ancho de la imagen en píxeles |
height | int | Altura de la imagen en píxeles |
image_description | string | Descripción generada por IA |
Personas
| Column | Type | Description |
|---|---|---|
id | int | ID único de persona |
name | string | Nombre identificado |
source | string | Origen de la detección |
photo_count | int | Número de fotos en las que aparece esta persona |
Rostros en fotos
| Column | Type | Description |
|---|---|---|
id | int | ID único de rostro |
photo_id | int | FK a fotos |
person_id | int | FK a personas |
bbox_left | float | Borde izquierdo (0–1) del cuadro delimitador |
bbox_top | float | Borde superior (0–1) del cuadro delimitador |
bbox_width | float | Ancho (0–1) del cuadro delimitador |
bbox_height | float | Altura (0–1) del cuadro delimitador |
confidence | float | Confianza de la detección |
Conversaciones de iMessage
| Columna | Tipo | Descripción |
|---|---|---|
id | int | ID único de la conversación |
slug | string | Identificador de conversación seguro para URL |
name | string | Nombre del contacto |
bio | string | Biografía/descripción del contacto |
photo | string | URL de la foto del contacto |
last_message | string | Vista previa del último mensaje |
last_message_time | string | Marca de tiempo del último mensaje |
pinned | bool | Indica si la conversación estaba fijada |
confirmed | bool | Indica si la identidad del contacto está confirmada |
source_files | json | Archivos fuente de los que se extrajo esta conversación |
message_count | int | Total de mensajes en esta conversación |
Mensajes de iMessage
| Column | Type | Description |
|---|---|---|
id | string | ID único del mensaje ({slug}#{index}) |
conversation_slug | string | FK a conversaciones (slug) |
message_index | int | Posición del mensaje dentro de la conversación |
text | string | Contenido de texto del mensaje |
sender | string | me (Epstein) o them (contacto) |
time | string | Cadena de la marca de tiempo original |
timestamp | timestamp | Marca de tiempo interpretada |
source_file | string | Archivo de origen del que se extrajo este mensaje |
sender_name | string | Nombre para mostrar del remitente |
Conteos de estrellas
| Columna | Tipo | Descripción |
|---|---|---|
entity_type | string | Tipo (email_message, email_thread, photo, document) |
entity_id | int | ID de la entidad |
count | int | Número de estrellas |
Lotes de publicación
| Columna | Tipo | Descripción |
|---|---|---|
id | int | ID del lote |
name | string | Nombre del lote |
description | string | Descripción del lote |
released_at | timestamp | Fecha de publicación al público |
