DuckDB / SQL

DuckDB 可以在无需下载或进行任何设置的情况下，通过 HTTP 直接查询 Parquet 文件。这是交互式探索数据的最快方式。

设置

安装 DuckDB，然后直接执行查询：

duckdb

SELECT sender, COUNT(*) as n
FROM read_parquet('https://data.jmail.world/v1/emails-slim.parquet')
GROUP BY sender ORDER BY n DESC LIMIT 20;

查询示例

按发件人统计邮件数量

SELECT sender, COUNT(*) as n
FROM read_parquet('https://data.jmail.world/v1/emails-slim.parquet')
GROUP BY sender ORDER BY n DESC LIMIT 20;

Epstein 发送的邮件

SELECT subject, sent_at, to_recipients
FROM read_parquet('https://data.jmail.world/v1/emails-slim.parquet')
WHERE epstein_is_sender = true
ORDER BY sent_at DESC LIMIT 20;

搜索文档

SELECT original_filename, document_description, page_count
FROM read_parquet('https://data.jmail.world/v1/documents.parquet')
WHERE document_description ILIKE '%flight%'
LIMIT 20;

连接照片与人物数据

SELECT p.name, COUNT(*) as appearances
FROM read_parquet('https://data.jmail.world/v1/photo_faces.parquet') pf
JOIN read_parquet('https://data.jmail.world/v1/people.parquet') p
  ON pf.person_id = p.id
GROUP BY p.name ORDER BY appearances DESC;

按实体类型的星标计数

SELECT entity_type, SUM(count) as total_stars
FROM read_parquet('https://data.jmail.world/v1/star_counts.parquet')
GROUP BY entity_type ORDER BY total_stars DESC;

搭配 Polars 使用

Polars 也可以通过 HTTP 直接读取 Parquet：

import polars as pl

df = pl.read_parquet("https://data.jmail.world/v1/emails-slim.parquet")
print(df.group_by("sender").len().sort("len", descending=True).head(20))

配合 pandas 使用

import pandas as pd

df = pd.read_parquet("https://data.jmail.world/v1/emails-slim.parquet")
print(df.groupby("sender").size().sort_values(ascending=False).head(20))

入门指南

数据集

访问方法

未定义

设置

查询示例

按发件人统计邮件数量

Epstein 发送的邮件

搜索文档

连接照片与人物数据

按实体类型的星标计数

搭配 Polars 使用

配合 pandas 使用

入门指南

数据集

访问方法

未定义

​设置

​查询示例

​ 按发件人统计邮件数量

​ Epstein 发送的邮件

​ 搜索文档

​ 连接照片与人物数据

​按实体类型的星标计数

​搭配 Polars 使用

​配合 pandas 使用

设置

查询示例

按发件人统计邮件数量

Epstein 发送的邮件

搜索文档

连接照片与人物数据

按实体类型的星标计数

搭配 Polars 使用

配合 pandas 使用