Pular para o conteúdo principal

Conjuntos de dados disponíveis

Todos os arquivos são servidos a partir de https://data.jmail.world/v1/.

Emails

O conjunto de dados principal. Contém todos os emails publicados do arquivo de Epstein. emails.parquet — Conjunto de dados completo com texto do corpo (content_markdown), remetente, destinatários, assunto, datas e metadados. emails-slim.parquet — Os mesmos emails, mas sem as colunas de texto do corpo. Tamanho de download bem menor, ideal para análise de redes, grafos de remetente/destinatário e visualizações de linha do tempo.

Colunas principais (slim)

ColunaTipoDescrição
idintID único do email
doc_idstringID de agrupamento de conversas
senderstringEmail/nome do remetente
subjectstringAssunto do email
to_recipientsjsonDestinatários principais
cc_recipientsjsonDestinatários em cópia (CC)
bcc_recipientsjsonDestinatários em cópia oculta (BCC)
sent_attimestampData/hora de envio
account_emailstringConta de origem
email_drop_idstringIdentificador de origem
epstein_is_senderboolIndica se Epstein enviou este email

Colunas adicionais (conjunto completo)

ColunaTipoDescrição
content_markdownstringCorpo do e-mail em Markdown
content_htmlstringCorpo do e-mail em HTML
attachmentsintNúmero de anexos

Documentos

Metadados de todos os documentos no arquivo (publicações do DOJ – Departamento de Justiça dos EUA, House Oversight, registros judiciais).
ColunaTipoDescrição
idintID único do documento
sourcestringFonte (doj, house_oversight)
release_batchstringIdentificador de volume/lote
original_filenamestringNome original do arquivo
page_countintNúmero de páginas
sizeintTamanho do arquivo em bytes
document_descriptionstringDescrição gerada por IA
has_thumbnailboolIndica se há miniatura

Fragmentos de texto completo de documentos

O texto extraído na íntegra é grande demais para um único arquivo. Use os arquivos fragmentados:
FragmentoURLConteúdo
VOL00008documents-full/VOL00008.parquetDOJ (Departamento de Justiça dos EUA) Volume 8
VOL00009documents-full/VOL00009.parquetDOJ (Departamento de Justiça dos EUA) Volume 9
VOL00010documents-full/VOL00010.parquetDOJ (Departamento de Justiça dos EUA) Volume 10
DataSet11documents-full/DataSet11.parquetDOJ (Departamento de Justiça dos EUA) Dataset 11
otherdocuments-full/other.parquetHouse Oversight, registros judiciais, etc.
O cliente Python cuida da concatenação dos fragmentos automaticamente via client.documents(include_text=True).

Fotos

Metadados de fotos de divulgações do governo com descrições geradas por IA.
ColunaTipoDescrição
idintID único da foto
sourcestringIdentificador da fonte
release_batchstringVolume/lote
original_filenamestringNome de arquivo original
content_typestringTipo MIME
widthintLargura da imagem em pixels
heightintAltura da imagem em pixels
image_descriptionstringDescrição gerada por IA

Pessoas

Pessoas identificadas via reconhecimento facial do serviço AWS Rekognition.
ColunaTipoDescrição
idintID único da pessoa
namestringNome identificado
sourcestringFonte da detecção
photo_countintNúmero de fotos com essa pessoa

Rostos em Fotos

Caixas delimitadoras que associam rostos detectados em fotos a pessoas identificadas.
ColumnTypeDescription
idintID único do rosto
photo_idintFK para fotos
person_idintFK para pessoas
bbox_leftfloatBorda esquerda da caixa delimitadora
bbox_topfloatBorda superior da caixa delimitadora
bbox_widthfloatLargura da caixa delimitadora
bbox_heightfloatAltura da caixa delimitadora
confidencefloatConfiança da detecção

Conversas do iMessage

Metadados de conversas do iMessage recuperadas do arquivo.
ColunaTipoDescrição
idintID único da conversa
slugstringIdentificador de conversa seguro para URL
namestringNome do contato
biostringBiografia/descrição do contato
photostringURL da foto do contato
last_messagestringPrévia da última mensagem
last_message_timestringCarimbo de data/hora da última mensagem
pinnedboolIndica se a conversa foi fixada
confirmedboolIndica se a identidade do contato está confirmada
source_filesjsonArquivos de origem dos quais esta conversa foi extraída
message_countintTotal de mensagens nesta conversa

Mensagens do iMessage

Mensagens de texto individuais do iMessage com informações do remetente e carimbos de data/hora.
ColumnTypeDescription
idstringID único da mensagem ({slug}#{index})
conversation_slugstringChave estrangeira para conversas (slug)
message_indexintPosição da mensagem dentro da conversa
textstringConteúdo de texto da mensagem
senderstringme (Epstein) ou them (contato)
timestringString original do carimbo de data/hora
timestamptimestampCarimbo de data/hora processado
source_filestringArquivo de origem do qual esta mensagem foi extraída
sender_namestringNome de exibição do remetente

Contagem de estrelas

Contagens de estrelas/interesse geradas colaborativamente por usuários do jmail.world.
ColunaTipoDescrição
entity_typestringTipo (email_message, email_thread, photo, document)
entity_idintID da entidade
countintNúmero de estrelas

Lotes de Lançamento

Metadados sobre cada lote de lançamento.
ColunaTipoDescrição
idintID do lote
namestringNome do lote
descriptionstringDescrição do lote
released_attimestampData de divulgação pública