datasets中load_dataset函数学习

datasets中load_dataset函数学习path str 数据集的路径或名称

大家好,欢迎来到IT知识分享网。

数据集是一个包含以下内容的目录:

  • 一些通用格式的数据文件(JSON、CSV、Parquet、文本等)。
  • 如果需要一些代码来读取数据文件,还可以选择使用数据集脚本。这用于加载任何类型的格式或结构。
  1. 如果库中尚未缓存数据集脚本,请从path下载并导入库中。
    如果数据集没有数据集脚本,那么就会导入一个通用的数据集脚本(JSON、CSV、Parquet、文本等)
    数据集脚本是定义数据集构建器的小型Python脚本。它们定义了数据集的引用、信息和格式,
    包含原始数据文件的路径或URL以及从原始数据文件加载示例的代码。
    您可以在数据集https://huggingface.co/datasets中找到完整的数据集列表。



  2. 运行数据集脚本,该脚本将执行以下操作:
  • 如果本地或缓存中尚未提供该数据集文件,请从原始URL下载。
  • 在类型化的Arrow表中处理和缓存数据集以进行缓存。
    Arrow表是任意长的类型化表,可以存储嵌套对象,并可以映射到numpy/pandas/python通用类型。
    它们可以直接从磁盘访问,加载到RAM中,甚至可以通过网络流式传输。

  1. 返回一个根据split中的请求拆分构建的数据集(默认值:全部)。
    它还允许从本地目录或Hugging Face Hub上的数据集存储库中加载数据集,而无需数据集脚本。
    在这种情况下,它会自动从目录或数据集存储库中加载所有数据文件。

Args:

name (str, optional):定义数据集配置的名称。

data_dir (str, optional):
定义数据集配置的data_dir。如果为通用构建器(csv、text等)或Hub数据集指定了data_dir,并且data_filesNone
该行为等同于将os.path.join(data_dir, )作为data_files传递,以引用目录中的所有文件。

data_files (str 或 Sequence 或 Mapping , optional):
源数据文件的路径。

cache_dir (str, optional):
读取/写入数据的目录。默认为”~/.cache/huggingface/datasets”。

features (Features, optional)
设置此数据集要使用的特征类型。

download_config ([DownloadConfig], optional):
特定的下载配置参数。

use_auth_token (str 或 bool, 可选):
用作Datasets Hub上远程文件的承载令牌的可选字符串或布尔值。

from datasets import load_dataset ds = load_dataset('rotten_tomatoes', split='train') #将数据文件映射到分割文件 data_files = { 
   'train': 'train.csv', 'test': 'test.csv'} ds = load_dataset('namespace/your_dataset_name', data_files=data_files) 

加载本地数据集:

# Load a CSV file from datasets import load_dataset ds = load_dataset('csv', data_files='path/to/local/my_dataset.csv') # Load a JSON file from datasets import load_dataset ds = load_dataset('json', data_files='path/to/local/my_dataset.json') # Load from a local loading script from datasets import load_dataset ds = load_dataset('path/to/local/loading_script/loading_script.py', split='train') 

加载一个[‘~datasets.IterableDataset’]:

from datasets import load_dataset ds = load_dataset('rotten_tomatoes', split='train', streaming=True) 

使用 ImageFolder 数据集构建器加载图像数据集:

from datasets import load_dataset ds = load_dataset('imagefolder', data_dir='/path/to/images', split='train') 

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/124488.html

(0)
上一篇 2025-10-06 22:00
下一篇 2025-10-06 22:15

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信