メインコンテンツへスキップ
client.documents(include_text=False) -> pd.DataFrame
ドキュメントのメタデータをダウンロードします。オプションで、すべてのドキュメントから抽出された全文テキストも含められます(シャーディングされたファイルをダウンロードします)。

パラメータ

include_text
bool
デフォルト:"False"
True の場合、個々の全文テキストシャードをダウンロードして 1 つの DataFrame に連結します。これによりダウンロード量はかなり大きくなります。

返り値

ドキュメントのメタデータを格納した pd.DataFrame。任意で extracted_text を含みます。

from jmail import JmailClient

client = JmailClient()

# メタデータのみ
docs = client.documents()

# 全文テキストを含む(大容量ダウンロード)
docs_full = client.documents(include_text=True)

# ドキュメント説明を検索
flights = docs[docs.document_description.str.contains("flight", case=False, na=False)]

説明
idintドキュメントを一意に識別するID
sourcestringソース(dojhouse_oversight
release_batchstring巻・バッチ識別子
original_filenamestring元のファイル名
page_countintページ数
sizeintファイルサイズ(バイト単位)
document_descriptionstringAI生成の説明文
has_thumbnailboolサムネイルの有無

追加列 (include_text=True)

ColumnType説明
extracted_textstringドキュメントから抽出されたテキスト全文

フルテキスト・シャード

include_text=True を使用すると、クライアントはこれらのシャードをダウンロードして連結します。
シャード内容
VOL00008DOJ(米国司法省)第8巻の文書
VOL00009DOJ 第9巻の文書
VOL00010DOJ 第10巻の文書
DataSet11DOJ データセット 11 の文書
otherHouse Oversight、裁判記録など

ダイレクト URL

https://data.jmail.world/v1/documents.parquet
https://data.jmail.world/v1/documents-full/VOL00008.parquet
https://data.jmail.world/v1/documents-full/VOL00009.parquet
https://data.jmail.world/v1/documents-full/VOL00010.parquet
https://data.jmail.world/v1/documents-full/DataSet11.parquet
https://data.jmail.world/v1/documents-full/other.parquet