Set di dati disponibili
https://data.jmail.world/v1/.
| Set di dati | URL Parquet | URL NDJSON |
|---|---|---|
| Email (completo) | emails.parquet | emails.ndjson.gz |
| Email (slim) | emails-slim.parquet | emails-slim.ndjson.gz |
| Documenti | documents.parquet | documents.ndjson.gz |
| Foto | photos.parquet | photos.ndjson.gz |
| Persone | people.parquet | people.ndjson.gz |
| Volti nelle foto | photo_faces.parquet | photo_faces.ndjson.gz |
| Conversazioni iMessage | imessage_conversations.parquet | imessage_conversations.ndjson.gz |
| Messaggi iMessage | imessage_messages.parquet | imessage_messages.ndjson.gz |
| Conteggi di stelle | star_counts.parquet | star_counts.ndjson.gz |
| Batch di rilascio | release_batches.parquet | release_batches.ndjson.gz |
Emails
Il dataset principale. Contiene tutte le email pubblicate dall’archivio Epstein.
emails.parquet — Dataset completo con corpo del messaggio (content_markdown), mittente, destinatari, oggetto, date e metadati.
emails-slim.parquet — Le stesse email ma senza le colonne con il corpo del messaggio. File molto più piccolo da scaricare, ideale per analisi di rete, grafi mittente/destinatario e visualizzazioni temporali.
Colonne chiave (slim)
| Column | Type | Description |
|---|---|---|
id | int | ID email univoco |
doc_id | string | ID di raggruppamento della conversazione |
sender | string | Email/nome del mittente |
subject | string | Oggetto dell’email |
to_recipients | json | Elenco destinatari principali (JSON) |
cc_recipients | json | Elenco destinatari in copia (CC, JSON) |
bcc_recipients | json | Elenco destinatari in copia nascosta (BCC, JSON) |
sent_at | timestamp | Data/ora di invio |
account_email | string | Account di origine |
email_drop_id | string | Identificatore di origine |
epstein_is_sender | bool | Indica se Epstein ha inviato questa email |
Colonne aggiuntive (completo)
| Column | Type | Description |
|---|---|---|
content_markdown | string | Corpo dell’email in formato Markdown |
content_html | string | Corpo dell’email in formato HTML |
attachments | int | Numero di allegati |
Documenti
Metadati di tutti i documenti nell’archivio (rilasci DOJ, House Oversight, registri dei tribunali).
| Column | Type | Description |
|---|---|---|
id | int | ID univoco del documento |
source | string | Fonte (doj, house_oversight) |
release_batch | string | Identificatore del volume/batch |
original_filename | string | Nome file originale |
page_count | int | Numero di pagine |
size | int | Dimensione del file in byte |
document_description | string | Descrizione generata dall’IA |
has_thumbnail | bool | Indica se è disponibile una miniatura |
Frammenti di testo completo dei documenti
| Frammento | URL | Contenuti |
|---|---|---|
| VOL00008 | documents-full/VOL00008.parquet | DOJ Volume 8 |
| VOL00009 | documents-full/VOL00009.parquet | DOJ Volume 9 |
| VOL00010 | documents-full/VOL00010.parquet | DOJ Volume 10 |
| DataSet11 | documents-full/DataSet11.parquet | DOJ Dataset 11 |
| other | documents-full/other.parquet | House Oversight, atti giudiziari, ecc. |
client.documents(include_text=True).
Foto
Metadati delle foto provenienti da pubblicazioni governative con descrizioni generate dall’IA.
| Colonna | Tipo | Descrizione |
|---|---|---|
id | int | ID univoco della foto |
source | string | Identificatore della fonte |
release_batch | string | Volume/batch |
original_filename | string | Nome file originale |
content_type | string | tipo MIME |
width | int | Larghezza dell’immagine in pixel |
height | int | Altezza dell’immagine in pixel |
image_description | string | Descrizione generata dall’IA |
Persone
| Colonna | Tipo | Descrizione |
|---|---|---|
id | int | ID univoco della persona |
name | string | Nome riconosciuto |
source | string | Origine del rilevamento |
photo_count | int | Numero di foto in cui compare questa persona |
Volti nelle foto
| Column | Type | Description |
|---|---|---|
id | int | ID univoco del volto |
photo_id | int | FK alla tabella photos |
person_id | int | FK alla tabella people |
bbox_left | float | Bordo sinistro del riquadro di delimitazione |
bbox_top | float | Bordo superiore del riquadro di delimitazione |
bbox_width | float | Larghezza del riquadro di delimitazione |
bbox_height | float | Altezza del riquadro di delimitazione |
confidence | float | Confidence del rilevamento |
Conversazioni iMessage
| Column | Type | Description |
|---|---|---|
id | int | ID univoco della conversazione |
slug | string | Identificatore della conversazione adatto agli URL |
name | string | Nome del contatto |
bio | string | Biografia/descrizione del contatto |
photo | string | URL della foto del contatto |
last_message | string | Anteprima dell’ultimo messaggio |
last_message_time | string | Timestamp dell’ultimo messaggio |
pinned | bool | Indica se la conversazione è fissata in alto |
confirmed | bool | Indica se l’identità del contatto è confermata |
source_files | json | File di origine da cui è stata estratta questa conversazione |
message_count | int | Numero totale di messaggi in questa conversazione |
Messaggi iMessage
| Column | Type | Description |
|---|---|---|
id | string | ID univoco del messaggio ({slug}#{index}) |
conversation_slug | string | FK alle conversazioni (slug) |
message_index | int | Posizione del messaggio all’interno della conversazione |
text | string | Contenuto testuale del messaggio |
sender | string | me (Epstein) o them (contatto) |
time | string | Stringa di timestamp originale |
timestamp | timestamp | Timestamp elaborato |
source_file | string | File sorgente da cui è stato estratto questo messaggio |
sender_name | string | Nome visualizzato del mittente |
Conteggi di stelle
| Column | Type | Description |
|---|---|---|
entity_type | string | Tipo (email_message, email_thread, photo, document) |
entity_id | int | ID dell’entità |
count | int | Numero di stelle |
Batch di rilascio
| Column | Type | Description |
|---|---|---|
id | int | ID del batch |
name | string | Nome del batch |
description | string | Descrizione del batch |
released_at | timestamp | Data di pubblicazione |
