Bookmarks » Corpus & Dataset: corpus

Showing posts with label corpus. Show all posts

2018-07-24

GitHub - aozorabunko/aozorabunko

https://github.com/aozorabunko/aozorabunko

GitHub に青空文庫の全データがある。

情報元
知らなかった……“青空文庫”の全データは“GitHub”から一括ダウンロードできる！ - やじうまの杜 - 窓の杜
https://forest.watch.impress.co.jp/docs/serial/yajiuma/1134357.html

2017-05-01

京都大学ウェブ文書リードコーパス - KWDLC - KUROHASHI-KAWAHARA LAB

http://nlp.ist.i.kyoto-u.ac.jp/index.php?KWDLC

本コーパスは、さまざまなウェブ文書のリード(冒頭)3文に各種言語情報を人手で付与したテキストコーパスです。ウェブ文書のリード3文を収集することによって、ニュース記事、百科事典記事、ブログ、商用ページなど多様なジャンル、文体の文書を含んでいます。コーパスの規模は約5,000文書です。

言語情報としては、形態素・固有表現・構文・格関係、照応・省略関係、共参照、談話関係の情報を付与しています。談話関係以外の情報は、形態素解析システムJUMAN、構文・格・照応解析システムKNPで自動解析を行い、その結果を専門家が修正したものです。談話関係については、クラウドソーシングを利用して付与しています。

2017-04-26

Datasets · arXivTimes/arXivTimes Wiki · GitHub

https://github.com/arXivTimes/arXivTimes/wiki/Datasets

言語コーパスや画像・音声データセットのリンク。

2017-03-19

雑談対話コーパス - 対話破綻検出チャレンジ

https://sites.google.com/site/dialoguebreakdowndetection/chat-dialogue-corpus

本コーパスはNTTドコモが一般公開している雑談対話APIを用いた雑談対話システムとユーザが21発話からなるやりとりを行った対話データで，116名の話者による1,146対話が収録されています．

2016-11-20

コーパス開発センター -Center for corpus development-

http://pj.ninjal.ac.jp/corpus_center/

国立国語研究所コーパス開発センターでは、日本語の全貌を把握するための言語コーパス (language corpus)を構築しています。

2016-03-03

GitHub - tomorinao/corpus: 友利奈緒の全セリフデータ

https://github.com/tomorinao/corpus

Charlotteのアニメにおける友利奈緒のセリフをまとめました

2015-11-21

N-gram コーパス - 日本語ウェブコーパス 2010

http://s-yata.jp/corpus/nwc2010/ngrams/

概要
ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです．各 N-gram コーパスには，頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています．

https://twitter.com/s5yata/status/667887920817111040

s-yata.jp/corpus/nwc2010... の N-gram コーパスを Google Drive にアップロードしてみました．

https://drive.google.com/folderview?id=0B0oLhpFvWG_sbmdyVk53U0ZnQ0E&usp=sharing

2015-10-30

Translation Task - EMNLP 2011 Sixth Workshop on Statistical Machine Translation

http://statmt.org/wmt11/translation-task.html

The recurring translation task of the WMT workshops focuses on European language pairs. Translation quality will be evaluated on a shared, unseen test set of news stories. We provide a parallel corpus as training data, a baseline system, and additional resources for download.

無料でここまでできる→日本語を書くのに役立つサイト２０選まとめ読書猿Classic: between / beyond readers

http://readingmonkey.blog45.fc2.com/blog-entry-715.html

コーパス検索ツールなどが紹介されている。

Wikipedia日英京都関連文書対訳コーパス

https://alaginrc.nict.go.jp/WikiCorpus/

『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日本語記事（京都関連）を英語に翻訳し、作成しました。

NAIST Text Corpus

https://sites.google.com/site/naisttextcorpus/

京都テキストコーパスで利用されている毎日新聞95年1月1日から17日までの全記事、約2万文、1月から12月までの社説記事、約2万文、計約4万文に対して，述語と表層格（ガ格，ヲ格，ニ格）の関係，事態性名詞と表層格（ガ格，ヲ格，ニ格）の関係，事態性名詞の名詞クラス，名詞句間の共参照関係，指示連体詞・代名詞の照応関係の情報を付与したコーパスです．

NINJAL-LWP for BCCWJ (NLB)

http://nlb.ninjal.ac.jp/

NINJAL-LWP for BCCWJ とは

NINJAL-LWP for BCCWJ（以下、NLB）は、国立国語研究所（以下、国語研）が構築した『現代日本語書き言葉均衡コーパス』（Balanced Corpus of Comtemporary Written Japanese: BCCWJ）を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システムです。