利用可能なデータセット
https://data.jmail.world/v1/ から提供されています。
Emails
主要なデータセットです。Epstein アーカイブで公開されているすべてのメールを収録しています。
emails.parquet — 本文テキスト(content_markdown)、送信者、受信者、件名、日付、およびメタデータを含む完全なデータセット。
emails-slim.parquet — 同じメールですが、本文テキストのカラムを除いたバージョンです。ダウンロードサイズが大幅に小さく、ネットワーク分析、送信者/受信者グラフ、タイムラインの可視化に最適です。
主なカラム (slim)
| Column | Type | Description |
|---|---|---|
id | int | 一意のメールID |
doc_id | string | スレッドをグループ化するID |
sender | string | 送信者のメールアドレス/名前 |
subject | string | メールの件名 |
to_recipients | json | To 宛先の受信者データ |
cc_recipients | json | CC 宛先の受信者データ |
bcc_recipients | json | BCC 宛先の受信者データ |
sent_at | timestamp | 送信日時 |
account_email | string | 送信元アカウント |
email_drop_id | string | ソース識別子 |
epstein_is_sender | bool | Epstein がこのメールの送信者かどうか |
追加カラム(full)
| Column | Type | Description |
|---|---|---|
content_markdown | string | メール本文(Markdown 形式) |
content_html | string | メール本文(HTML 形式) |
attachments | int | 添付ファイル数 |
ドキュメント
アーカイブ内のすべてのドキュメント(DOJリリース、House Oversight、裁判所記録)のメタデータです。
| Column | Type | Description |
|---|---|---|
id | int | 一意のドキュメントID |
source | string | 出典(doj、house_oversight) |
release_batch | string | 巻/バッチ識別子 |
original_filename | string | 元のファイル名 |
page_count | int | ページ数 |
size | int | ファイルサイズ(バイト) |
document_description | string | AI生成の説明 |
has_thumbnail | bool | サムネイルの有無 |
ドキュメント全文テキストのシャード
| Shard | URL | Contents |
|---|---|---|
| VOL00008 | documents-full/VOL00008.parquet | DOJ 第8巻 |
| VOL00009 | documents-full/VOL00009.parquet | DOJ 第9巻 |
| VOL00010 | documents-full/VOL00010.parquet | DOJ 第10巻 |
| DataSet11 | documents-full/DataSet11.parquet | DOJ データセット 11 |
| other | documents-full/other.parquet | House Oversight、裁判記録など |
client.documents(include_text=True) を使用するとシャードの結合が自動的に処理されます。
写真
政府公開資料に含まれる写真メタデータ(AI生成の説明付き)。
| Column | Type | Description |
|---|---|---|
id | int | 一意の写真ID |
source | string | ソース識別子 |
release_batch | string | 巻・バッチ番号 |
original_filename | string | 元のファイル名 |
content_type | string | MIMEタイプ |
width | int | 画像の幅(ピクセル) |
height | int | 画像の高さ(ピクセル) |
image_description | string | AI生成の説明 |
People
| Column | Type | Description |
|---|---|---|
id | int | 一意の人物 ID |
name | string | 認識された名前 |
source | string | 検出元 |
photo_count | int | この人物が写っている写真の数 |
写真の顔情報
| Column | Type | Description |
|---|---|---|
id | int | 顔ごとの一意な ID |
photo_id | int | photos への外部キー |
person_id | int | people への外部キー |
bbox_left | float | バウンディングボックスの左端(0〜1 の範囲に正規化) |
bbox_top | float | バウンディングボックスの上端(0〜1 の範囲に正規化) |
bbox_width | float | バウンディングボックスの幅(0〜1 の範囲に正規化) |
bbox_height | float | バウンディングボックスの高さ(0〜1 の範囲に正規化) |
confidence | float | 検出の信頼度 |
iMessage 会話
| Column | Type | Description |
|---|---|---|
id | int | 一意の会話 ID |
slug | string | URL セーフな会話識別子 |
name | string | 連絡先名 |
bio | string | 連絡先の自己紹介/説明 |
photo | string | 連絡先写真の URL |
last_message | string | 最後のメッセージのプレビュー |
last_message_time | string | 最後のメッセージのタイムスタンプ |
pinned | bool | 会話がピン留めされているかどうか |
confirmed | bool | 連絡先の識別情報が確認済みかどうか |
source_files | json | この会話が抽出されたソースファイル |
message_count | int | この会話内のメッセージ総数 |
iMessage メッセージ
| Column | Type | Description |
|---|---|---|
id | string | 一意のメッセージ ID ({slug}#{index}) |
conversation_slug | string | 会話への外部キー (slug) |
message_index | int | 会話内でのメッセージの位置 |
text | string | メッセージ本文 |
sender | string | me (Epstein) または them (連絡先) |
time | string | 元のタイムスタンプ文字列 |
timestamp | timestamp | 解析済みタイムスタンプ |
source_file | string | このメッセージが抽出された元のファイル |
sender_name | string | 送信者の表示名 |
スター数
| Column | Type | Description |
|---|---|---|
entity_type | string | 種類(email_message、email_thread、photo、document) |
entity_id | int | エンティティID |
count | int | スター数 |
リリースバッチ
| Column | Type | Description |
|---|---|---|
id | int | バッチID |
name | string | バッチ名 |
description | string | バッチの説明 |
released_at | timestamp | 公開日 |
