TensorFlow 中最大的 30 个机器学习数据集

由谷歌Brain的研究人员创建的TensorFlow是机器学习和数据科学领域最大的开源数据库之一。它是一个端到端的平台，适用于初学者和有经验的数据科学家。TensorFlow库包括工具、预训练模型、机器学习指南，以及开放数据集的语料库。为了帮助你找到所需的训练数据，本文将简要介绍一些用于机器学习的最大的TensorFlow数据集。我们已经将下面的列表分为图像、视频、音频和文本数据集。

图像数据集

1、CelebA: 最大的公开的人脸图像数据集之一，名人脸属性数据集(CelebA)包含超过20万名名人的图像。

每幅图像包含5个面部特征点和40个二值属性标注。

2、Downsampled Imagenet：该数据集用于密度估计和生成建模任务。它包含130多万幅物体、场景、车辆、人物等图像。这些图像有两种分辨率：32 x 32和64 x 64。

3、Lsun – Lsun是一个大型图像数据集，用于帮助训练模型理解场景。数据集包含超过900万张图像，这些图像被划分为场景类别，例如卧室、教室和餐厅。

4、Bigearthnet – Bigearthnet是另一个大型数据集，包含来自Sentinel-2卫星的航空图像。每幅图像覆盖1.2 km x 1.2 km的地面。每张图像包括43个不平衡标签。

5、Places 365 – 顾名思义，Places 365包含了180多万张不同地方或场景的图片。其中包括办公室、码头和小屋。Places 365是用于场景识别任务的最大数据集之一。

6、Quickdraw Bitmap – Quickdraw数据集是Quickdraw玩家社区绘制的图像集合。它包含了500万幅横跨345个类别的画作。这个版本的Quickdraw数据集包括28 x 28灰度格式的图像。

7、SVHN Cropped – 来自斯坦福大学的街景门牌号(SVHN)是一个TensorFlow数据集，用来训练数字识别算法。它包含600,000个真实世界的图像数据样本，这些数据被裁剪成32 x 32像素。

8、VGGFace2 – 最大的人脸图像数据集之一，VGGFace2包含从谷歌搜索引擎下载的图像。这些脸因年龄、姿势和种族而不同。每个受试者平均有362张图像。

9、COCO – 由谷歌，FAIR, Caltech和更多的合作者制作，COCO是世界上最大的标记图像数据集之一。它用于目标检测、分割和图像描述任务。

数据集包含330,000张图像，其中200,000张已被标注。在这些图像中有分布在80个类别中的150万个物体实例。

10、Open Images Challenge 2019 – 包含大约900万幅图像，这个数据集是在线可用的最大的标注图像数据集。包含图像级标签、物体边框和物体分割掩码，以及视觉关系。

11、Open Images V4 – 这个数据集是上面提到的开放图像数据集的另一个迭代。V4有600个不同的物体类包含1460万个边框。边界框是由人工标注人员手动绘制的。

12、AFLW2K3D – 该数据集包含2000个面部图像，所有标注了3D人脸特征点。它是用来评估三维人脸特征点检测模型的。

视频数据集

13、UCF101 – 来自中佛罗里达大学的UCF101是一个用来训练动作识别模型的视频数据集。该数据集有13,320个跨越101个动作类别的视频。

14、BAIR Robot Pushing – 来自伯克利人工智能研究中心的BAIR Robot Pushing包含了44000个机器人推动运动的示例视频。

15、Moving MNIST – 该数据集是MNIST基准数据集的一个变体，Moving MNIST包含10,000个视频。

16、EMNIST – 扩展MNIST包含从原始MNIST数据集转换为28 x 28像素格式的数字。

音频数据集

17、CREMA-D – CREMA-D是为情感识别任务而创建的，包括声音情感表达。这个数据集包含7,442个音频片段，由91个不同年龄、种族和性别的演员配音。

18、Librispeech – Librispeech是一个简单的音频数据集，它包含1000小时的英语语音，这些语音来自LibriVox项目的有声读物。它被用于训练声学模型和语言模型。

19、Libritts – 这个数据集包含大约585小时的英语演讲，是在谷歌Brain team成员的协助下准备的。Libritts最初是为文本到语音(TTS)研究设计的，但可以用于各种语音识别任务。

20、TED-LIUM – TED- lium是一个包含超过110小时的英语TED演讲的数据集。所有谈话都已抄录下来。

21、VoxCeleb – VoxCeleb是一个用于扬声器识别任务的大型音频数据集，包含来自1,251名扬声器的超过150,000个音频样本。

文本数据集

22、C4 (Common Crawl’s Web Crawl Corpus) – Common抓取是web页面数据的开放源码存储库。它有40多种语言，涵盖了7年的数据。

23、Civil Comments – 这个数据集包含了来自50个英语新闻网站的超过180万份公众评论。

24、IRC Disentanglement – 这个TensorFlow数据集包含了来自Ubuntu IRC频道的77000多条评论。每个样本的元数据包括消息ID和时间戳。

25、Lm1b – 这个数据集被称为语言模型基准测试，它包含10亿个单词。它最初是用来衡量统计语言建模的进展。

26、SNLI – 斯坦福自然语言推理数据集是一个包含570,000对人类书写的句子的语料库。所有对都经过人工标记，以达到类别平衡。

27、e-SNLI – 这个数据集是上面提到的SNLI的扩展，它包含了原始数据集的570,000对句子，分类为：entailment，contradiction和neutral。

28、MultiNLI – 以SNLI数据集为模型，MultiNLI包括433,000对句子对，它们都标注了entailment信息。

29、Wiki40b – 这个大规模数据集包括来自40种不同语言的维基百科文章的文本。数据已经被清洗，非内容部分以及结构化对象已经被删除。

30、Yelp Polarity Reviews – 这个数据集包含59.8万个高度两极分化的Yelp评论。它们是从2015年Yelp数据集挑战赛的数据中提取出来的。

—END—

关于以上数据集的下载可以参看英文原文，地址：https://lionbridge.ai/datasets/tensorflow-datasets-machine-learning/

TensorFlow 中最大的 30 个机器学习数据集

图像数据集

视频数据集

音频数据集

文本数据集

参与讨论

回复《 TensorFlow 中最大的 30 个机器学习数据集》

EditorJs 编辑器

作者信息

打赏记录

等待回复

下一篇

TensorFlow 中最大的 30 个机器学习数据集

图像数据集

视频数据集

音频数据集

文本数据集

参与讨论

回复《 TensorFlow 中最大的 30 个机器学习数据集》

EditorJs 编辑器 什么是EditorJs？更多帮助信息请前往：https://editorjs.io/

作者信息

打赏记录

等待回复

下一篇

EditorJs 编辑器