数据集
CV
NLP
Text Classification Datasets
一个文本分类数据集,包含8个可用于文本分类的子数据集,样本大小从120K到3.6M,问题范围从2级到14级,数据来源于 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。
CMU Q/A Dataset
人工生成的问题/答案对,难度评级来自维基百科文章。
SQuAD
斯坦福大学的问答数据集,广泛用于问题回答和阅读理解,其中每个问题和答案都是文本片段的形式。
Billion Words
一个大型、通用的语言建模数据集,常用于如 word2vec 或 Glove 的分布式词语表征。
Common Crawl
Petabyte 级规模的网络爬行数据集,常用于学习词嵌入。
Stanford Sentiment Treebank
一个标准情感数据集,数据集中每个句子解析树的每个节点都有精细的情感注释。
20 Newsgroups
一个文本分类的经典数据集,通常用于纯分类或作为任何 IR/索引算法的基准。
Manythings
Manythings数据集平台