2016-11-20

コーパス開発センター -Center for corpus development-

http://pj.ninjal.ac.jp/corpus_center/
国立国語研究所コーパス開発センターでは、日本語の全貌を把握するための言語コーパス (language corpus)を構築しています。

分類語彙表-増補改訂版データベース | 国立国語研究所

https://www.ninjal.ac.jp/archives/goihyo/
本データベース版は,書籍版の『分類語彙表 −増補改訂版−』の元となったデータを加工したものです。データベースソフトに取り込めるようCSV形式になっています。レコード総数は,101,070件です
http://pj.ninjal.ac.jp/corpus_center/files/bunruidb.zip
分類語彙表増補改訂版データベース
著 者: 国立国語研究所(編)
2004年公開

2016-07-09

The Stanford Question Answering Dataset

https://stanford-qa.com/
Stanford Question Answering Dataset (SQuAD) is a reading comprehension dataset, consisting of questions posed by crowdworkers on a set of Wikipedia articles, where the answer to every question is a segment of text, or span, from the corresponding reading passage. With 107,785 question-answer pairs on 536 articles, SQuAD is significantly larger than previous reading comprehension datasets.
質問応答データセット。

2016-03-03

GitHub - tomorinao/corpus: 友利奈緒の全セリフデータ

https://github.com/tomorinao/corpus
Charlotteのアニメにおける友利奈緒のセリフをまとめました

2016-01-16

R10 - Yahoo News Feed dataset, version 1.0 (1.5TB)

http://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75
The dataset stands at a massive ~110B lines (1.5TB bzipped) of user-news item interaction data, collected by recording the user- news item interaction of about 20M users from February 2015 to May 2015.

2017-05-11 追記
"This Dataset is no longer available" となっている。