Vai al contenuto principale

Set di dati disponibili

Tutti i file sono forniti da https://data.jmail.world/v1/.

Emails

Il dataset principale. Contiene tutte le email pubblicate dall’archivio Epstein. emails.parquet — Dataset completo con corpo del messaggio (content_markdown), mittente, destinatari, oggetto, date e metadati. emails-slim.parquet — Le stesse email ma senza le colonne con il corpo del messaggio. File molto più piccolo da scaricare, ideale per analisi di rete, grafi mittente/destinatario e visualizzazioni temporali.

Colonne chiave (slim)

ColumnTypeDescription
idintID email univoco
doc_idstringID di raggruppamento della conversazione
senderstringEmail/nome del mittente
subjectstringOggetto dell’email
to_recipientsjsonElenco destinatari principali (JSON)
cc_recipientsjsonElenco destinatari in copia (CC, JSON)
bcc_recipientsjsonElenco destinatari in copia nascosta (BCC, JSON)
sent_attimestampData/ora di invio
account_emailstringAccount di origine
email_drop_idstringIdentificatore di origine
epstein_is_senderboolIndica se Epstein ha inviato questa email

Colonne aggiuntive (completo)

ColumnTypeDescription
content_markdownstringCorpo dell’email in formato Markdown
content_htmlstringCorpo dell’email in formato HTML
attachmentsintNumero di allegati

Documenti

Metadati di tutti i documenti nell’archivio (rilasci DOJ, House Oversight, registri dei tribunali).
ColumnTypeDescription
idintID univoco del documento
sourcestringFonte (doj, house_oversight)
release_batchstringIdentificatore del volume/batch
original_filenamestringNome file originale
page_countintNumero di pagine
sizeintDimensione del file in byte
document_descriptionstringDescrizione generata dall’IA
has_thumbnailboolIndica se è disponibile una miniatura

Frammenti di testo completo dei documenti

Il testo integrale estratto è troppo grande per un singolo file. Usa i file frammentati:
FrammentoURLContenuti
VOL00008documents-full/VOL00008.parquetDOJ Volume 8
VOL00009documents-full/VOL00009.parquetDOJ Volume 9
VOL00010documents-full/VOL00010.parquetDOJ Volume 10
DataSet11documents-full/DataSet11.parquetDOJ Dataset 11
otherdocuments-full/other.parquetHouse Oversight, atti giudiziari, ecc.
Il client Python gestisce automaticamente la concatenazione dei frammenti tramite client.documents(include_text=True).

Foto

Metadati delle foto provenienti da pubblicazioni governative con descrizioni generate dall’IA.
ColonnaTipoDescrizione
idintID univoco della foto
sourcestringIdentificatore della fonte
release_batchstringVolume/batch
original_filenamestringNome file originale
content_typestringtipo MIME
widthintLarghezza dell’immagine in pixel
heightintAltezza dell’immagine in pixel
image_descriptionstringDescrizione generata dall’IA

Persone

Persone identificate tramite il riconoscimento facciale AWS Rekognition.
ColonnaTipoDescrizione
idintID univoco della persona
namestringNome riconosciuto
sourcestringOrigine del rilevamento
photo_countintNumero di foto in cui compare questa persona

Volti nelle foto

Riquadri di delimitazione (bounding box) che collegano i volti rilevati nelle foto alle persone identificate.
ColumnTypeDescription
idintID univoco del volto
photo_idintFK alla tabella photos
person_idintFK alla tabella people
bbox_leftfloatBordo sinistro del riquadro di delimitazione
bbox_topfloatBordo superiore del riquadro di delimitazione
bbox_widthfloatLarghezza del riquadro di delimitazione
bbox_heightfloatAltezza del riquadro di delimitazione
confidencefloatConfidence del rilevamento

Conversazioni iMessage

Metadati delle conversazioni iMessage recuperate dall’archivio.
ColumnTypeDescription
idintID univoco della conversazione
slugstringIdentificatore della conversazione adatto agli URL
namestringNome del contatto
biostringBiografia/descrizione del contatto
photostringURL della foto del contatto
last_messagestringAnteprima dell’ultimo messaggio
last_message_timestringTimestamp dell’ultimo messaggio
pinnedboolIndica se la conversazione è fissata in alto
confirmedboolIndica se l’identità del contatto è confermata
source_filesjsonFile di origine da cui è stata estratta questa conversazione
message_countintNumero totale di messaggi in questa conversazione

Messaggi iMessage

Messaggi di testo iMessage individuali con informazioni sul mittente e sui timestamp.
ColumnTypeDescription
idstringID univoco del messaggio ({slug}#{index})
conversation_slugstringFK alle conversazioni (slug)
message_indexintPosizione del messaggio all’interno della conversazione
textstringContenuto testuale del messaggio
senderstringme (Epstein) o them (contatto)
timestringStringa di timestamp originale
timestamptimestampTimestamp elaborato
source_filestringFile sorgente da cui è stato estratto questo messaggio
sender_namestringNome visualizzato del mittente

Conteggi di stelle

Conteggi collaborativi di stelle/interesse espressi dagli utenti di jmail.world.
ColumnTypeDescription
entity_typestringTipo (email_message, email_thread, photo, document)
entity_idintID dell’entità
countintNumero di stelle

Batch di rilascio

Metadati relativi a ogni batch di rilascio.
ColumnTypeDescription
idintID del batch
namestringNome del batch
descriptionstringDescrizione del batch
released_attimestampData di pubblicazione