Saltar al contenido principal

Conjuntos de datos disponibles

Todos los archivos se sirven desde https://data.jmail.world/v1/.

Emails

El conjunto de datos principal. Contiene todos los correos electrónicos publicados del archivo de Epstein. emails.parquet — Conjunto de datos completo con texto del cuerpo (content_markdown), remitente, destinatarios, asunto, fechas y metadatos. emails-slim.parquet — Los mismos correos electrónicos pero sin las columnas de texto del cuerpo. Descarga mucho más ligera, ideal para análisis de redes, grafos de remitente/destinatario y visualizaciones de líneas de tiempo.

Columnas clave (slim)

ColumnaTipoDescripción
idintID único del correo electrónico
doc_idstringID de agrupación de conversación
senderstringCorreo/nombre del remitente
subjectstringAsunto del correo
to_recipientsjsonDestinatarios principales (To)
cc_recipientsjsonDestinatarios en copia (CC)
bcc_recipientsjsonDestinatarios en copia oculta (BCC)
sent_attimestampFecha de envío
account_emailstringCuenta de origen
email_drop_idstringIdentificador de origen
epstein_is_senderboolIndica si Epstein envió este correo

Columnas adicionales (completo)

ColumnaTipoDescripción
content_markdownstringCuerpo del correo electrónico en Markdown
content_htmlstringCuerpo del correo electrónico en HTML
attachmentsintCantidad de adjuntos

Documentos

Metadatos de todos los documentos del archivo (publicaciones del DOJ, Departamento de Justicia de EE. UU.; House Oversight, registros judiciales).
ColumnTypeDescription
idintID único del documento
sourcestringFuente (doj, house_oversight)
release_batchstringIdentificador de volumen/lote
original_filenamestringNombre de archivo original
page_countintNúmero de páginas
sizeintTamaño del archivo en bytes
document_descriptionstringDescripción generada por IA
has_thumbnailboolIndica si existe una miniatura

Fragmentos de texto completo de documentos

El texto extraído completo es demasiado grande para un solo archivo. Utiliza los archivos fragmentados:
FragmentoURLContenido
VOL00008documents-full/VOL00008.parquetVolumen 8 del DOJ
VOL00009documents-full/VOL00009.parquetVolumen 9 del DOJ
VOL00010documents-full/VOL00010.parquetVolumen 10 del DOJ
DataSet11documents-full/DataSet11.parquetConjunto de datos 11 del DOJ
otherdocuments-full/other.parquetHouse Oversight, registros judiciales, etc.
El cliente de Python gestiona la concatenación de fragmentos automáticamente mediante client.documents(include_text=True).

Fotos

Metadatos de fotos de publicaciones gubernamentales con descripciones generadas por IA.
ColumnTypeDescription
idintID único de la foto
sourcestringIdentificador de la fuente
release_batchstringVolumen/lote
original_filenamestringNombre de archivo original
content_typestringtipo MIME
widthintAncho de la imagen en píxeles
heightintAltura de la imagen en píxeles
image_descriptionstringDescripción generada por IA

Personas

Personas identificadas mediante el reconocimiento facial de AWS Rekognition.
ColumnTypeDescription
idintID único de persona
namestringNombre identificado
sourcestringOrigen de la detección
photo_countintNúmero de fotos en las que aparece esta persona

Rostros en fotos

Cuadros delimitadores que vinculan rostros detectados en fotos con personas identificadas.
ColumnTypeDescription
idintID único de rostro
photo_idintFK a fotos
person_idintFK a personas
bbox_leftfloatBorde izquierdo (0–1) del cuadro delimitador
bbox_topfloatBorde superior (0–1) del cuadro delimitador
bbox_widthfloatAncho (0–1) del cuadro delimitador
bbox_heightfloatAltura (0–1) del cuadro delimitador
confidencefloatConfianza de la detección

Conversaciones de iMessage

Metadatos de conversaciones de iMessage recuperadas del archivo.
ColumnaTipoDescripción
idintID único de la conversación
slugstringIdentificador de conversación seguro para URL
namestringNombre del contacto
biostringBiografía/descripción del contacto
photostringURL de la foto del contacto
last_messagestringVista previa del último mensaje
last_message_timestringMarca de tiempo del último mensaje
pinnedboolIndica si la conversación estaba fijada
confirmedboolIndica si la identidad del contacto está confirmada
source_filesjsonArchivos fuente de los que se extrajo esta conversación
message_countintTotal de mensajes en esta conversación

Mensajes de iMessage

Mensajes de texto individuales de iMessage con información del remitente y marcas de tiempo.
ColumnTypeDescription
idstringID único del mensaje ({slug}#{index})
conversation_slugstringFK a conversaciones (slug)
message_indexintPosición del mensaje dentro de la conversación
textstringContenido de texto del mensaje
senderstringme (Epstein) o them (contacto)
timestringCadena de la marca de tiempo original
timestamptimestampMarca de tiempo interpretada
source_filestringArchivo de origen del que se extrajo este mensaje
sender_namestringNombre para mostrar del remitente

Conteos de estrellas

Conteos de estrellas/interés generados de forma colaborativa por usuarios de jmail.world.
ColumnaTipoDescripción
entity_typestringTipo (email_message, email_thread, photo, document)
entity_idintID de la entidad
countintNúmero de estrellas

Lotes de publicación

Metadatos sobre cada lote de publicación.
ColumnaTipoDescripción
idintID del lote
namestringNombre del lote
descriptionstringDescripción del lote
released_attimestampFecha de publicación al público