datasets中load_dataset函数学习

大家好，欢迎来到IT知识分享网。

数据集是一个包含以下内容的目录：

一些通用格式的数据文件（JSON、CSV、Parquet、文本等）。
如果需要一些代码来读取数据文件，还可以选择使用数据集脚本。这用于加载任何类型的格式或结构。

如果库中尚未缓存数据集脚本，请从path下载并导入库中。
如果数据集没有数据集脚本，那么就会导入一个通用的数据集脚本（JSON、CSV、Parquet、文本等）
数据集脚本是定义数据集构建器的小型Python脚本。它们定义了数据集的引用、信息和格式，
包含原始数据文件的路径或URL以及从原始数据文件加载示例的代码。
您可以在数据集https://huggingface.co/datasets中找到完整的数据集列表。
运行数据集脚本，该脚本将执行以下操作：

如果本地或缓存中尚未提供该数据集文件，请从原始URL下载。
在类型化的Arrow表中处理和缓存数据集以进行缓存。
Arrow表是任意长的类型化表，可以存储嵌套对象，并可以映射到numpy/pandas/python通用类型。
它们可以直接从磁盘访问，加载到RAM中，甚至可以通过网络流式传输。

返回一个根据split中的请求拆分构建的数据集（默认值：全部）。
它还允许从本地目录或Hugging Face Hub上的数据集存储库中加载数据集，而无需数据集脚本。
在这种情况下，它会自动从目录或数据集存储库中加载所有数据文件。

Args：

name (str, optional):定义数据集配置的名称。

data_dir (str, optional):
定义数据集配置的data_dir。如果为通用构建器（csv、text等）或Hub数据集指定了data_dir，并且data_files为None，
该行为等同于将os.path.join(data_dir, )作为data_files传递，以引用目录中的所有文件。

data_files (str 或 Sequence 或 Mapping , optional):
源数据文件的路径。

cache_dir (str, optional):
读取/写入数据的目录。默认为”~/.cache/huggingface/datasets”。

features (Features, optional)
设置此数据集要使用的特征类型。

download_config ([DownloadConfig], optional):
特定的下载配置参数。

use_auth_token (str 或 bool, 可选):
用作Datasets Hub上远程文件的承载令牌的可选字符串或布尔值。

from datasets import load_dataset ds = load_dataset('rotten_tomatoes', split='train') #将数据文件映射到分割文件 data_files = { 
   'train': 'train.csv', 'test': 'test.csv'} ds = load_dataset('namespace/your_dataset_name', data_files=data_files)

加载本地数据集：

# Load a CSV file from datasets import load_dataset ds = load_dataset('csv', data_files='path/to/local/my_dataset.csv') # Load a JSON file from datasets import load_dataset ds = load_dataset('json', data_files='path/to/local/my_dataset.json') # Load from a local loading script from datasets import load_dataset ds = load_dataset('path/to/local/loading_script/loading_script.py', split='train')

加载一个[‘~datasets.IterableDataset’]：

from datasets import load_dataset ds = load_dataset('rotten_tomatoes', split='train', streaming=True)

使用 ImageFolder 数据集构建器加载图像数据集：

from datasets import load_dataset ds = load_dataset('imagefolder', data_dir='/path/to/images', split='train')

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/124488.html

datasets中load_dataset函数学习

相关推荐

发表回复