メインコンテンツへスキップ

利用可能なデータセット

すべてのファイルは https://data.jmail.world/v1/ から提供されています。

Emails

主要なデータセットです。Epstein アーカイブで公開されているすべてのメールを収録しています。 emails.parquet — 本文テキスト(content_markdown)、送信者、受信者、件名、日付、およびメタデータを含む完全なデータセット。 emails-slim.parquet — 同じメールですが、本文テキストのカラムを除いたバージョンです。ダウンロードサイズが大幅に小さく、ネットワーク分析、送信者/受信者グラフ、タイムラインの可視化に最適です。

主なカラム (slim)

ColumnTypeDescription
idint一意のメールID
doc_idstringスレッドをグループ化するID
senderstring送信者のメールアドレス/名前
subjectstringメールの件名
to_recipientsjsonTo 宛先の受信者データ
cc_recipientsjsonCC 宛先の受信者データ
bcc_recipientsjsonBCC 宛先の受信者データ
sent_attimestamp送信日時
account_emailstring送信元アカウント
email_drop_idstringソース識別子
epstein_is_senderboolEpstein がこのメールの送信者かどうか

追加カラム(full)

ColumnTypeDescription
content_markdownstringメール本文(Markdown 形式)
content_htmlstringメール本文(HTML 形式)
attachmentsint添付ファイル数

ドキュメント

アーカイブ内のすべてのドキュメント(DOJリリース、House Oversight、裁判所記録)のメタデータです。
ColumnTypeDescription
idint一意のドキュメントID
sourcestring出典(dojhouse_oversight
release_batchstring巻/バッチ識別子
original_filenamestring元のファイル名
page_countintページ数
sizeintファイルサイズ(バイト)
document_descriptionstringAI生成の説明
has_thumbnailboolサムネイルの有無

ドキュメント全文テキストのシャード

抽出された全文テキストは1つのファイルに収まりきらないため、次のシャーディングされたファイルを使用してください:
ShardURLContents
VOL00008documents-full/VOL00008.parquetDOJ 第8巻
VOL00009documents-full/VOL00009.parquetDOJ 第9巻
VOL00010documents-full/VOL00010.parquetDOJ 第10巻
DataSet11documents-full/DataSet11.parquetDOJ データセット 11
otherdocuments-full/other.parquetHouse Oversight、裁判記録など
Python クライアントでは、client.documents(include_text=True) を使用するとシャードの結合が自動的に処理されます。

写真

政府公開資料に含まれる写真メタデータ(AI生成の説明付き)。
ColumnTypeDescription
idint一意の写真ID
sourcestringソース識別子
release_batchstring巻・バッチ番号
original_filenamestring元のファイル名
content_typestringMIMEタイプ
widthint画像の幅(ピクセル)
heightint画像の高さ(ピクセル)
image_descriptionstringAI生成の説明

People

AWS Rekognition 顔認識で識別された人物。
ColumnTypeDescription
idint一意の人物 ID
namestring認識された名前
sourcestring検出元
photo_countintこの人物が写っている写真の数

写真の顔情報

写真内で検出された顔と特定された人物を対応付けるバウンディングボックス。
ColumnTypeDescription
idint顔ごとの一意な ID
photo_idintphotos への外部キー
person_idintpeople への外部キー
bbox_leftfloatバウンディングボックスの左端(0〜1 の範囲に正規化)
bbox_topfloatバウンディングボックスの上端(0〜1 の範囲に正規化)
bbox_widthfloatバウンディングボックスの幅(0〜1 の範囲に正規化)
bbox_heightfloatバウンディングボックスの高さ(0〜1 の範囲に正規化)
confidencefloat検出の信頼度

iMessage 会話

アーカイブから復元された iMessage 会話のメタデータ。
ColumnTypeDescription
idint一意の会話 ID
slugstringURL セーフな会話識別子
namestring連絡先名
biostring連絡先の自己紹介/説明
photostring連絡先写真の URL
last_messagestring最後のメッセージのプレビュー
last_message_timestring最後のメッセージのタイムスタンプ
pinnedbool会話がピン留めされているかどうか
confirmedbool連絡先の識別情報が確認済みかどうか
source_filesjsonこの会話が抽出されたソースファイル
message_countintこの会話内のメッセージ総数

iMessage メッセージ

送信者情報とタイムスタンプ付きの個々の iMessage テキストメッセージ。
ColumnTypeDescription
idstring一意のメッセージ ID ({slug}#{index})
conversation_slugstring会話への外部キー (slug)
message_indexint会話内でのメッセージの位置
textstringメッセージ本文
senderstringme (Epstein) または them (連絡先)
timestring元のタイムスタンプ文字列
timestamptimestamp解析済みタイムスタンプ
source_filestringこのメッセージが抽出された元のファイル
sender_namestring送信者の表示名

スター数

jmail.world ユーザーによるスター/関心度のクラウドソース集計。
ColumnTypeDescription
entity_typestring種類(email_messageemail_threadphotodocument
entity_idintエンティティID
countintスター数

リリースバッチ

各リリースバッチのメタデータ。
ColumnTypeDescription
idintバッチID
namestringバッチ名
descriptionstringバッチの説明
released_attimestamp公開日