https://github.com/arXivTimes/arXivTimes/wiki/Datasets
言語コーパスや画像・音声データセットのリンク。
Showing posts with label NLP. Show all posts
Showing posts with label NLP. Show all posts
2017-04-26
2015-11-21
N-gram コーパス - 日本語ウェブコーパス 2010
http://s-yata.jp/corpus/nwc2010/ngrams/
概要https://twitter.com/s5yata/status/667887920817111040
ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています.
s-yata.jp/corpus/nwc2010... の N-gram コーパスを Google Drive にアップロードしてみました.https://drive.google.com/folderview?id=0B0oLhpFvWG_sbmdyVk53U0ZnQ0E&usp=sharing
2015-10-30
Translation Task - EMNLP 2011 Sixth Workshop on Statistical Machine Translation
http://statmt.org/wmt11/translation-task.html
The recurring translation task of the WMT workshops focuses on European language pairs. Translation quality will be evaluated on a shared, unseen test set of news stories. We provide a parallel corpus as training data, a baseline system, and additional resources for download.
NAIST Text Corpus
https://sites.google.com/site/naisttextcorpus/
京都テキストコーパスで利用されている毎日新聞95年1月1日から17日まで の全記事、約2万文、1月から12月までの社説記事、約2万文、計約4万文に対して,述語と表層格(ガ格,ヲ格,ニ格)の関係,事態性名詞と表層格(ガ格, ヲ格,ニ格)の関係,事態性名詞の名詞クラス,名詞句間の共参照関係,指示連体詞・代名詞の照応関係の情報を付与したコーパスです.
動詞項構造シソーラス =>述語項構造シソーラス — Computational Linguistics Takeuchi lab
http://cl.cs.okayama-u.ac.jp/rsc/data
言語処理のための日本語の動詞辞書
人の言葉をコンピュータで処理するために動詞の概念を整理したコンピュータ用の 辞書を構築してfreeで配布しています(現在4425語(7473語義)).