大家好,欢迎来到IT知识分享网。
数据集是一个包含以下内容的目录:
- 一些通用格式的数据文件(JSON、CSV、Parquet、文本等)。
- 如果需要一些代码来读取数据文件,还可以选择使用数据集脚本。这用于加载任何类型的格式或结构。
- 如果库中尚未缓存数据集脚本,请从path下载并导入库中。
如果数据集没有数据集脚本,那么就会导入一个通用的数据集脚本(JSON、CSV、Parquet、文本等)
数据集脚本是定义数据集构建器的小型Python脚本。它们定义了数据集的引用、信息和格式,
包含原始数据文件的路径或URL以及从原始数据文件加载示例的代码。
您可以在数据集https://huggingface.co/datasets中找到完整的数据集列表。 - 运行数据集脚本,该脚本将执行以下操作:
- 如果本地或缓存中尚未提供该数据集文件,请从原始URL下载。
- 在类型化的Arrow表中处理和缓存数据集以进行缓存。
Arrow表是任意长的类型化表,可以存储嵌套对象,并可以映射到numpy/pandas/python通用类型。
它们可以直接从磁盘访问,加载到RAM中,甚至可以通过网络流式传输。
- 返回一个根据split中的请求拆分构建的数据集(默认值:全部)。
它还允许从本地目录或Hugging Face Hub上的数据集存储库中加载数据集,而无需数据集脚本。
在这种情况下,它会自动从目录或数据集存储库中加载所有数据文件。
Args:
name (str, optional):定义数据集配置的名称。
data_dir (str, optional):
定义数据集配置的data_dir
。如果为通用构建器(csv、text等)或Hub数据集指定了data_dir
,并且data_files
为None
,
该行为等同于将os.path.join(data_dir, )
作为data_files
传递,以引用目录中的所有文件。
data_files (str 或 Sequence 或 Mapping , optional):
源数据文件的路径。
cache_dir (str, optional):
读取/写入数据的目录。默认为”~/.cache/huggingface/datasets”。
features (Features, optional)
设置此数据集要使用的特征类型。
download_config ([DownloadConfig], optional):
特定的下载配置参数。
use_auth_token (str 或 bool, 可选):
用作Datasets Hub上远程文件的承载令牌的可选字符串或布尔值。
from datasets import load_dataset ds = load_dataset('rotten_tomatoes', split='train') #将数据文件映射到分割文件 data_files = {
'train': 'train.csv', 'test': 'test.csv'} ds = load_dataset('namespace/your_dataset_name', data_files=data_files)
加载本地数据集:
# Load a CSV file from datasets import load_dataset ds = load_dataset('csv', data_files='path/to/local/my_dataset.csv') # Load a JSON file from datasets import load_dataset ds = load_dataset('json', data_files='path/to/local/my_dataset.json') # Load from a local loading script from datasets import load_dataset ds = load_dataset('path/to/local/loading_script/loading_script.py', split='train')
加载一个[‘~datasets.IterableDataset’]:
from datasets import load_dataset ds = load_dataset('rotten_tomatoes', split='train', streaming=True)
使用 ImageFolder 数据集构建器加载图像数据集:
from datasets import load_dataset ds = load_dataset('imagefolder', data_dir='/path/to/images', split='train')
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/124488.html