跳转到主要内容
client.documents(include_text=False) -> pd.DataFrame
下载文档元数据。可选包含所有文档的完整提取文本(下载分片文件)。

参数

include_text
bool
默认值:"False"
如果为 True,会下载各个单独的全文分片并将它们拼接成一个 DataFrame。下载量会大得多。

返回值

包含文档元数据的 pd.DataFrame,可选包含 extracted_text

示例

from jmail import JmailClient

client = JmailClient()

# 仅元数据
docs = client.documents()

# 包含完整提取的文本(大文件下载)
docs_full = client.documents(include_text=True)

# 搜索文档描述
flights = docs[docs.document_description.str.contains("flight", case=False, na=False)]

列名类型描述
idint文档唯一 ID
sourcestring数据来源(dojhouse_oversight
release_batchstring卷/批次标识符
original_filenamestring原始文件名
page_countint页数
sizeint文件大小(字节)
document_descriptionstringAI 生成的描述
has_thumbnailbool是否有缩略图

附加列(include_text=True)

列名类型描述
extracted_textstring从文档中提取的完整文本

全文分片

当设置 include_text=True 时,客户端会下载这些分片并将其拼接:
分片内容
VOL00008DOJ 第 8 卷文档(美国司法部)
VOL00009DOJ 第 9 卷文档(美国司法部)
VOL00010DOJ 第 10 卷文档(美国司法部)
DataSet11DOJ 数据集 11 文档(美国司法部)
otherHouse Oversight(美国众议院监督委员会)、法院记录等

直接访问 URL

https://data.jmail.world/v1/documents.parquet
https://data.jmail.world/v1/documents-full/VOL00008.parquet
https://data.jmail.world/v1/documents-full/VOL00009.parquet
https://data.jmail.world/v1/documents-full/VOL00010.parquet
https://data.jmail.world/v1/documents-full/DataSet11.parquet
https://data.jmail.world/v1/documents-full/other.parquet