可用数据集
https://data.jmail.world/v1/。
Emails
主要数据集。包含 Epstein 邮件档案中已公开的全部电子邮件。
emails.parquet — 完整数据集,包含正文(content_markdown)、发件人、收件人、主题、日期及其他元数据。
emails-slim.parquet — 与上述相同的邮件数据,但不包含正文列。文件体积小得多,非常适合用于网络分析、发件人/收件人关系图以及时间线可视化。
关键列(精简版)
| Column | Type | Description |
|---|---|---|
id | int | 唯一邮件 ID |
doc_id | string | 会话分组 ID |
sender | string | 发件人邮箱/姓名 |
subject | string | 邮件主题行 |
to_recipients | json | 收件人列表 |
cc_recipients | json | 抄送收件人列表 |
bcc_recipients | json | 密送收件人列表 |
sent_at | timestamp | 发送时间 |
account_email | string | 来源账户邮箱 |
email_drop_id | string | 来源标识符 |
epstein_is_sender | bool | 是否由 Epstein 发送此邮件 |
其他列(完整)
| 列名 | 类型 | 说明 |
|---|---|---|
content_markdown | string | 邮件正文(Markdown 格式) |
content_html | string | 邮件正文(HTML 格式) |
attachments | int | 附件数量 |
文档
存档中所有文档的元数据(来源包括 DOJ(美国司法部)、House Oversight 以及法院记录)。
| Column | Type | Description |
|---|---|---|
id | int | 唯一文档 ID |
source | string | 来源(doj、house_oversight) |
release_batch | string | 卷/批次标识符 |
original_filename | string | 原始文件名 |
page_count | int | 页数 |
size | int | 文件大小(字节) |
document_description | string | AI 生成的描述 |
has_thumbnail | bool | 是否有缩略图 |
文档全文分片
| 分片 | URL | 内容 |
|---|---|---|
| VOL00008 | documents-full/VOL00008.parquet | DOJ 第 8 卷 |
| VOL00009 | documents-full/VOL00009.parquet | DOJ 第 9 卷 |
| VOL00010 | documents-full/VOL00010.parquet | DOJ 第 10 卷 |
| DataSet11 | documents-full/DataSet11.parquet | DOJ 数据集 11 |
| other | documents-full/other.parquet | House Oversight、法院记录等 |
client.documents(include_text=True) 自动处理分片合并。
照片
来自政府公开发布资料的照片元数据,包含 AI 生成的描述。
| Column | Type | Description |
|---|---|---|
id | int | 唯一照片 ID |
source | string | 来源标识符 |
release_batch | string | 卷/批次 |
original_filename | string | 原始文件名 |
content_type | string | MIME 类型 |
width | int | 图像宽度(像素) |
height | int | 图像高度(像素) |
image_description | string | AI 生成的描述 |
人物
| Column | Type | Description |
|---|---|---|
id | int | 唯一人物 ID |
name | string | 识别出的姓名 |
source | string | 检测来源 |
photo_count | int | 包含该人物的照片数量 |
照片人脸
| 列名 | 类型 | 描述 |
|---|---|---|
id | int | 人脸唯一 ID |
photo_id | int | 指向 photos 表的外键 |
person_id | int | 指向 people 表的外键 |
bbox_left | float | 边界框左侧坐标(0–1 归一化) |
bbox_top | float | 边界框顶部坐标(0–1 归一化) |
bbox_width | float | 边界框宽度(0–1 归一化) |
bbox_height | float | 边界框高度(0–1 归一化) |
confidence | float | 检测置信度 |
iMessage 会话
| Column | Type | Description |
|---|---|---|
id | int | 唯一会话 ID |
slug | string | URL 安全的会话标识符 |
name | string | 联系人姓名 |
bio | string | 联系人简介/描述 |
photo | string | 联系人照片 URL |
last_message | string | 最后一条消息的预览 |
last_message_time | string | 最后一条消息的时间戳 |
pinned | bool | 该会话是否已置顶 |
confirmed | bool | 联系人身份是否已确认 |
source_files | json | 提取出此会话的源文件 |
message_count | int | 此会话中的消息总数 |
iMessage 消息
| Column | Type | Description |
|---|---|---|
id | string | 唯一消息 ID({slug}#{index}) |
conversation_slug | string | 指向会话的外键(slug) |
message_index | int | 消息在会话中的顺序 |
text | string | 消息文本内容 |
sender | string | me(Epstein)或 them(联系人) |
time | string | 原始时间戳字符串 |
timestamp | timestamp | 解析后的时间戳 |
source_file | string | 该消息提取自的源文件 |
sender_name | string | 发件人显示名称 |
星标计数
| 列 | 类型 | 描述 |
|---|---|---|
entity_type | string | 类型(email_message、email_thread、photo、document) |
entity_id | int | 实体 ID |
count | int | 星标数量 |
发布批次
| Column | Type | Description |
|---|---|---|
id | int | 批次 ID |
name | string | 批次名称 |
description | string | 批次说明 |
released_at | timestamp | 对外公开日期 |
