Conjuntos de dados disponíveis
https://data.jmail.world/v1/.
| Conjunto de dados | URL do Parquet | URL do NDJSON |
|---|---|---|
| E-mails (completo) | emails.parquet | emails.ndjson.gz |
| E-mails (reduzido) | emails-slim.parquet | emails-slim.ndjson.gz |
| Documentos | documents.parquet | documents.ndjson.gz |
| Fotos | photos.parquet | photos.ndjson.gz |
| Pessoas | people.parquet | people.ndjson.gz |
| Rostos em fotos | photo_faces.parquet | photo_faces.ndjson.gz |
| Conversas iMessage | imessage_conversations.parquet | imessage_conversations.ndjson.gz |
| Mensagens iMessage | imessage_messages.parquet | imessage_messages.ndjson.gz |
| Contagem de estrelas | star_counts.parquet | star_counts.ndjson.gz |
| Lotes de publicação | release_batches.parquet | release_batches.ndjson.gz |
Emails
O conjunto de dados principal. Contém todos os emails publicados do arquivo de Epstein.
emails.parquet — Conjunto de dados completo com texto do corpo (content_markdown), remetente, destinatários, assunto, datas e metadados.
emails-slim.parquet — Os mesmos emails, mas sem as colunas de texto do corpo. Tamanho de download bem menor, ideal para análise de redes, grafos de remetente/destinatário e visualizações de linha do tempo.
Colunas principais (slim)
| Coluna | Tipo | Descrição |
|---|---|---|
id | int | ID único do email |
doc_id | string | ID de agrupamento de conversas |
sender | string | Email/nome do remetente |
subject | string | Assunto do email |
to_recipients | json | Destinatários principais |
cc_recipients | json | Destinatários em cópia (CC) |
bcc_recipients | json | Destinatários em cópia oculta (BCC) |
sent_at | timestamp | Data/hora de envio |
account_email | string | Conta de origem |
email_drop_id | string | Identificador de origem |
epstein_is_sender | bool | Indica se Epstein enviou este email |
Colunas adicionais (conjunto completo)
| Coluna | Tipo | Descrição |
|---|---|---|
content_markdown | string | Corpo do e-mail em Markdown |
content_html | string | Corpo do e-mail em HTML |
attachments | int | Número de anexos |
Documentos
Metadados de todos os documentos no arquivo (publicações do DOJ – Departamento de Justiça dos EUA, House Oversight, registros judiciais).
| Coluna | Tipo | Descrição |
|---|---|---|
id | int | ID único do documento |
source | string | Fonte (doj, house_oversight) |
release_batch | string | Identificador de volume/lote |
original_filename | string | Nome original do arquivo |
page_count | int | Número de páginas |
size | int | Tamanho do arquivo em bytes |
document_description | string | Descrição gerada por IA |
has_thumbnail | bool | Indica se há miniatura |
Fragmentos de texto completo de documentos
| Fragmento | URL | Conteúdo |
|---|---|---|
| VOL00008 | documents-full/VOL00008.parquet | DOJ (Departamento de Justiça dos EUA) Volume 8 |
| VOL00009 | documents-full/VOL00009.parquet | DOJ (Departamento de Justiça dos EUA) Volume 9 |
| VOL00010 | documents-full/VOL00010.parquet | DOJ (Departamento de Justiça dos EUA) Volume 10 |
| DataSet11 | documents-full/DataSet11.parquet | DOJ (Departamento de Justiça dos EUA) Dataset 11 |
| other | documents-full/other.parquet | House Oversight, registros judiciais, etc. |
client.documents(include_text=True).
Fotos
Metadados de fotos de divulgações do governo com descrições geradas por IA.
| Coluna | Tipo | Descrição |
|---|---|---|
id | int | ID único da foto |
source | string | Identificador da fonte |
release_batch | string | Volume/lote |
original_filename | string | Nome de arquivo original |
content_type | string | Tipo MIME |
width | int | Largura da imagem em pixels |
height | int | Altura da imagem em pixels |
image_description | string | Descrição gerada por IA |
Pessoas
| Coluna | Tipo | Descrição |
|---|---|---|
id | int | ID único da pessoa |
name | string | Nome identificado |
source | string | Fonte da detecção |
photo_count | int | Número de fotos com essa pessoa |
Rostos em Fotos
| Column | Type | Description |
|---|---|---|
id | int | ID único do rosto |
photo_id | int | FK para fotos |
person_id | int | FK para pessoas |
bbox_left | float | Borda esquerda da caixa delimitadora |
bbox_top | float | Borda superior da caixa delimitadora |
bbox_width | float | Largura da caixa delimitadora |
bbox_height | float | Altura da caixa delimitadora |
confidence | float | Confiança da detecção |
Conversas do iMessage
| Coluna | Tipo | Descrição |
|---|---|---|
id | int | ID único da conversa |
slug | string | Identificador de conversa seguro para URL |
name | string | Nome do contato |
bio | string | Biografia/descrição do contato |
photo | string | URL da foto do contato |
last_message | string | Prévia da última mensagem |
last_message_time | string | Carimbo de data/hora da última mensagem |
pinned | bool | Indica se a conversa foi fixada |
confirmed | bool | Indica se a identidade do contato está confirmada |
source_files | json | Arquivos de origem dos quais esta conversa foi extraída |
message_count | int | Total de mensagens nesta conversa |
Mensagens do iMessage
| Column | Type | Description |
|---|---|---|
id | string | ID único da mensagem ({slug}#{index}) |
conversation_slug | string | Chave estrangeira para conversas (slug) |
message_index | int | Posição da mensagem dentro da conversa |
text | string | Conteúdo de texto da mensagem |
sender | string | me (Epstein) ou them (contato) |
time | string | String original do carimbo de data/hora |
timestamp | timestamp | Carimbo de data/hora processado |
source_file | string | Arquivo de origem do qual esta mensagem foi extraída |
sender_name | string | Nome de exibição do remetente |
Contagem de estrelas
| Coluna | Tipo | Descrição |
|---|---|---|
entity_type | string | Tipo (email_message, email_thread, photo, document) |
entity_id | int | ID da entidade |
count | int | Número de estrelas |
Lotes de Lançamento
| Coluna | Tipo | Descrição |
|---|---|---|
id | int | ID do lote |
name | string | Nome do lote |
description | string | Descrição do lote |
released_at | timestamp | Data de divulgação pública |
