documents() - Jmail Data API

client.documents(include_text=False) -> pd.DataFrame

下载文档元数据。可选包含所有文档的完整提取文本（下载分片文件）。

参数

include_text

bool

默认值:"False"

如果为 True，会下载各个单独的全文分片并将它们拼接成一个 DataFrame。下载量会大得多。

返回值

包含文档元数据的 pd.DataFrame，可选包含 extracted_text。

示例

from jmail import JmailClient

client = JmailClient()

# 仅元数据
docs = client.documents()

# 包含完整提取的文本(大文件下载)
docs_full = client.documents(include_text=True)

# 搜索文档描述
flights = docs[docs.document_description.str.contains("flight", case=False, na=False)]

列

列名	类型	描述
`id`	int	文档唯一 ID
`source`	string	数据来源（`doj`，`house_oversight`）
`release_batch`	string	卷/批次标识符
`original_filename`	string	原始文件名
`page_count`	int	页数
`size`	int	文件大小（字节）
`document_description`	string	AI 生成的描述
`has_thumbnail`	bool	是否有缩略图

附加列（include_text=True）

列名	类型	描述
`extracted_text`	string	从文档中提取的完整文本

全文分片

当设置 include_text=True 时，客户端会下载这些分片并将其拼接：

分片	内容
`VOL00008`	DOJ 第 8 卷文档（美国司法部）
`VOL00009`	DOJ 第 9 卷文档（美国司法部）
`VOL00010`	DOJ 第 10 卷文档（美国司法部）
`DataSet11`	DOJ 数据集 11 文档（美国司法部）
`other`	House Oversight（美国众议院监督委员会）、法院记录等

直接访问 URL

https://data.jmail.world/v1/documents.parquet
https://data.jmail.world/v1/documents-full/VOL00008.parquet
https://data.jmail.world/v1/documents-full/VOL00009.parquet
https://data.jmail.world/v1/documents-full/VOL00010.parquet
https://data.jmail.world/v1/documents-full/DataSet11.parquet
https://data.jmail.world/v1/documents-full/other.parquet

Python 客户端

​参数

​返回值

​示例

​列

​附加列（include_text=True）

​全文分片

​直接访问 URL

参数

返回值

示例

列

附加列（include_text=True）

全文分片

直接访问 URL