跳转到主要内容

可用数据集

所有文件均托管于 https://data.jmail.world/v1/

Emails

主要数据集。包含 Epstein 邮件档案中已公开的全部电子邮件。 emails.parquet — 完整数据集,包含正文(content_markdown)、发件人、收件人、主题、日期及其他元数据。 emails-slim.parquet — 与上述相同的邮件数据,但不包含正文列。文件体积小得多,非常适合用于网络分析、发件人/收件人关系图以及时间线可视化。

关键列(精简版)

ColumnTypeDescription
idint唯一邮件 ID
doc_idstring会话分组 ID
senderstring发件人邮箱/姓名
subjectstring邮件主题行
to_recipientsjson收件人列表
cc_recipientsjson抄送收件人列表
bcc_recipientsjson密送收件人列表
sent_attimestamp发送时间
account_emailstring来源账户邮箱
email_drop_idstring来源标识符
epstein_is_senderbool是否由 Epstein 发送此邮件

其他列(完整)

列名类型说明
content_markdownstring邮件正文(Markdown 格式)
content_htmlstring邮件正文(HTML 格式)
attachmentsint附件数量

文档

存档中所有文档的元数据(来源包括 DOJ(美国司法部)、House Oversight 以及法院记录)。
ColumnTypeDescription
idint唯一文档 ID
sourcestring来源(dojhouse_oversight
release_batchstring卷/批次标识符
original_filenamestring原始文件名
page_countint页数
sizeint文件大小(字节)
document_descriptionstringAI 生成的描述
has_thumbnailbool是否有缩略图

文档全文分片

完整提取的文本体积过大,无法放入单个文件。请使用以下分片文件:
分片URL内容
VOL00008documents-full/VOL00008.parquetDOJ 第 8 卷
VOL00009documents-full/VOL00009.parquetDOJ 第 9 卷
VOL00010documents-full/VOL00010.parquetDOJ 第 10 卷
DataSet11documents-full/DataSet11.parquetDOJ 数据集 11
otherdocuments-full/other.parquetHouse Oversight、法院记录等
Python 客户端会通过 client.documents(include_text=True) 自动处理分片合并。

照片

来自政府公开发布资料的照片元数据,包含 AI 生成的描述。
ColumnTypeDescription
idint唯一照片 ID
sourcestring来源标识符
release_batchstring卷/批次
original_filenamestring原始文件名
content_typestringMIME 类型
widthint图像宽度(像素)
heightint图像高度(像素)
image_descriptionstringAI 生成的描述

人物

通过 AWS Rekognition 人脸识别检测到的人物。
ColumnTypeDescription
idint唯一人物 ID
namestring识别出的姓名
sourcestring检测来源
photo_countint包含该人物的照片数量

照片人脸

描述用于将照片中检测到的人脸与已识别人物关联的边界框信息。
列名类型描述
idint人脸唯一 ID
photo_idint指向 photos 表的外键
person_idint指向 people 表的外键
bbox_leftfloat边界框左侧坐标(0–1 归一化)
bbox_topfloat边界框顶部坐标(0–1 归一化)
bbox_widthfloat边界框宽度(0–1 归一化)
bbox_heightfloat边界框高度(0–1 归一化)
confidencefloat检测置信度

iMessage 会话

从归档中恢复的 iMessage 会话元数据。
ColumnTypeDescription
idint唯一会话 ID
slugstringURL 安全的会话标识符
namestring联系人姓名
biostring联系人简介/描述
photostring联系人照片 URL
last_messagestring最后一条消息的预览
last_message_timestring最后一条消息的时间戳
pinnedbool该会话是否已置顶
confirmedbool联系人身份是否已确认
source_filesjson提取出此会话的源文件
message_countint此会话中的消息总数

iMessage 消息

单条 iMessage 文本消息,包含发件人信息和时间戳。
ColumnTypeDescription
idstring唯一消息 ID({slug}#{index}
conversation_slugstring指向会话的外键(slug)
message_indexint消息在会话中的顺序
textstring消息文本内容
senderstringme(Epstein)或 them(联系人)
timestring原始时间戳字符串
timestamptimestamp解析后的时间戳
source_filestring该消息提取自的源文件
sender_namestring发件人显示名称

星标计数

基于 jmail.world 用户众包的星标/兴趣计数数据。
类型描述
entity_typestring类型(email_messageemail_threadphotodocument
entity_idint实体 ID
countint星标数量

发布批次

每个发布批次的元数据。
ColumnTypeDescription
idint批次 ID
namestring批次名称
descriptionstring批次说明
released_attimestamp对外公开日期