2015-11-21

N-gram コーパス - 日本語ウェブコーパス 2010

http://s-yata.jp/corpus/nwc2010/ngrams/
概要
ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています.
https://twitter.com/s5yata/status/667887920817111040
s-yata.jp/corpus/nwc2010... の N-gram コーパスを Google Drive にアップロードしてみました.
https://drive.google.com/folderview?id=0B0oLhpFvWG_sbmdyVk53U0ZnQ0E&usp=sharing

2015-10-30

Translation Task - EMNLP 2011 Sixth Workshop on Statistical Machine Translation

http://statmt.org/wmt11/translation-task.html
The recurring translation task of the WMT workshops focuses on European language pairs. Translation quality will be evaluated on a shared, unseen test set of news stories. We provide a parallel corpus as training data, a baseline system, and additional resources for download.

無料でここまでできる→日本語を書くのに役立つサイト20選まとめ 読書猿Classic: between / beyond readers

http://readingmonkey.blog45.fc2.com/blog-entry-715.html

コーパス検索ツールなどが紹介されている。

Wikipedia日英京都関連文書対訳コーパス

https://alaginrc.nict.go.jp/WikiCorpus/
『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日本語記事(京都関連)を英語に翻訳し、作成しました。

NAIST Text Corpus

https://sites.google.com/site/naisttextcorpus/
京都テキストコーパスで利用されている毎日新聞95年1月1日から17日まで の全記事、約2万文、1月から12月までの社説記事、約2万文、計約4万文に対して,述語と表層格(ガ格,ヲ格,ニ格)の関係,事態性名詞と表層格(ガ格, ヲ格,ニ格)の関係,事態性名詞の名詞クラス,名詞句間の共参照関係,指示連体詞・代名詞の照応関係の情報を付与したコーパスです.

NINJAL-LWP for BCCWJ (NLB)

http://nlb.ninjal.ac.jp/
NINJAL-LWP for BCCWJ とは

NINJAL-LWP for BCCWJ(以下、NLB)は、国立国語研究所(以下、国語研)が構築した『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Comtemporary Written Japanese: BCCWJ)を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システムです。

Wiktionary 日本語 ダンプ

http://dumps.wikimedia.org/jawiktionary/
Index of /jawiktionary/

漢字辞典

http://kanjitisiki.com/
漢字に関する情報を扱う漢字の総合サイトです。

漢字の意味・読み・部首・画数、漢字の知識や問題など漢字に関する様々な情報を記載しています。

たんし 表記ゆれ辞書

http://tansi.osdn.jp/
「たんし」とは、日本語の表記ゆれ判別用の辞書です。フォーマットは国立国語研究所の表記統合辞書に基づいています。

動詞項構造シソーラス =>述語項構造シソーラス — Computational Linguistics Takeuchi lab

http://cl.cs.okayama-u.ac.jp/rsc/data
言語処理のための日本語の動詞辞書

人の言葉をコンピュータで処理するために動詞の概念を整理したコンピュータ用の 辞書を構築してfreeで配布しています(現在4425語(7473語義)).