AI Dataset

数据集

CV

NLP

Text Classification Datasets 一个文本分类数据集，包含8个可用于文本分类的子数据集，样本大小从120K到3.6M，问题范围从2级到14级，数据来源于 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。

CMU Q/A Dataset 人工生成的问题/答案对，难度评级来自维基百科文章。

SQuAD 斯坦福大学的问答数据集，广泛用于问题回答和阅读理解，其中每个问题和答案都是文本片段的形式。

Billion Words 一个大型、通用的语言建模数据集，常用于如 word2vec 或 Glove 的分布式词语表征。

Common Crawl Petabyte 级规模的网络爬行数据集，常用于学习词嵌入。

Stanford Sentiment Treebank 一个标准情感数据集，数据集中每个句子解析树的每个节点都有精细的情感注释。

20 Newsgroups 一个文本分类的经典数据集，通常用于纯分类或作为任何 IR／索引算法的基准。

Manythings Manythings数据集平台