メインコンテンツへスキップ

v1 — 安定版リリース

2026年2月25日 Jmail Data API は安定版となり、本番環境での利用に適した状態になりました。スキーマはバージョンが更新されない限り変更されません。

v1 に含まれるもの

  • 178万件のメール — エプスタインのメールアーカイブ全体(Gmail、Yahoo、DOJデータセット8〜11)
  • 141万件のドキュメント — DOJ第8〜11巻、House Oversight、裁判記録(すべてメタデータ付き)
  • 53.1万件以上のドキュメント全文シャード — Reductoで全DOJ巻から抽出したテキスト
  • 1.8万枚の写真 — AI生成の説明付き
  • 473人の特定済みの人物 — AWS Rekognition の顔認識による
  • 4,500件のiMessage — デバイスのフォレンジック解析データから復元
  • 41.4万件のクラウドソーシングによる星評価 — jmail.worldユーザーによる

フォーマット

すべてのデータセットは Parquet(カラム型の分析向け)と NDJSON(gzipped 形式、ストリーミング向け)の両方で利用できます。Python クライアント、DuckDB、直接ダウンロードのいずれの方法でも利用可能です。

インフラストラクチャ

  • Cloudflare R2 から配信 — 外向き通信(egress)料金ゼロ、レート制限なし、API キー不要
  • 効率的なポーリングのための ETag ベースのキャッシュ
  • コンテンツネゴシエーション(拡張子なしのパスはデフォルトで Parquet にリダイレクト)
  • /latest/* バージョンエイリアスは常に最新バージョンを指す