client.documents(include_text=False) -> pd.DataFrame
下载文档元数据。可选包含所有文档的完整提取文本(下载分片文件)。
如果为 True,会下载各个单独的全文分片并将它们拼接成一个 DataFrame。下载量会大得多。
包含文档元数据的 pd.DataFrame,可选包含 extracted_text。
from jmail import JmailClient
client = JmailClient()
# 仅元数据
docs = client.documents()
# 包含完整提取的文本(大文件下载)
docs_full = client.documents(include_text=True)
# 搜索文档描述
flights = docs[docs.document_description.str.contains("flight", case=False, na=False)]
| 列名 | 类型 | 描述 |
|---|
id | int | 文档唯一 ID |
source | string | 数据来源(doj,house_oversight) |
release_batch | string | 卷/批次标识符 |
original_filename | string | 原始文件名 |
page_count | int | 页数 |
size | int | 文件大小(字节) |
document_description | string | AI 生成的描述 |
has_thumbnail | bool | 是否有缩略图 |
| 列名 | 类型 | 描述 |
|---|
extracted_text | string | 从文档中提取的完整文本 |
当设置 include_text=True 时,客户端会下载这些分片并将其拼接:
| 分片 | 内容 |
|---|
VOL00008 | DOJ 第 8 卷文档(美国司法部) |
VOL00009 | DOJ 第 9 卷文档(美国司法部) |
VOL00010 | DOJ 第 10 卷文档(美国司法部) |
DataSet11 | DOJ 数据集 11 文档(美国司法部) |
other | House Oversight(美国众议院监督委员会)、法院记录等 |
https://data.jmail.world/v1/documents.parquet
https://data.jmail.world/v1/documents-full/VOL00008.parquet
https://data.jmail.world/v1/documents-full/VOL00009.parquet
https://data.jmail.world/v1/documents-full/VOL00010.parquet
https://data.jmail.world/v1/documents-full/DataSet11.parquet
https://data.jmail.world/v1/documents-full/other.parquet