国立国語研究所コーパス開発センターでは、日本語の全貌を把握するための言語コーパス (language corpus)を構築しています。
Showing posts with label 日本語. Show all posts
Showing posts with label 日本語. Show all posts
2016-11-20
コーパス開発センター -Center for corpus development-
http://pj.ninjal.ac.jp/corpus_center/
2015-11-21
N-gram コーパス - 日本語ウェブコーパス 2010
http://s-yata.jp/corpus/nwc2010/ngrams/
概要https://twitter.com/s5yata/status/667887920817111040
ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています.
s-yata.jp/corpus/nwc2010... の N-gram コーパスを Google Drive にアップロードしてみました.https://drive.google.com/folderview?id=0B0oLhpFvWG_sbmdyVk53U0ZnQ0E&usp=sharing
2015-10-30
Wikipedia日英京都関連文書対訳コーパス
https://alaginrc.nict.go.jp/WikiCorpus/
『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日本語記事(京都関連)を英語に翻訳し、作成しました。
NAIST Text Corpus
https://sites.google.com/site/naisttextcorpus/
京都テキストコーパスで利用されている毎日新聞95年1月1日から17日まで の全記事、約2万文、1月から12月までの社説記事、約2万文、計約4万文に対して,述語と表層格(ガ格,ヲ格,ニ格)の関係,事態性名詞と表層格(ガ格, ヲ格,ニ格)の関係,事態性名詞の名詞クラス,名詞句間の共参照関係,指示連体詞・代名詞の照応関係の情報を付与したコーパスです.
NINJAL-LWP for BCCWJ (NLB)
http://nlb.ninjal.ac.jp/
NINJAL-LWP for BCCWJ とは
NINJAL-LWP for BCCWJ(以下、NLB)は、国立国語研究所(以下、国語研)が構築した『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Comtemporary Written Japanese: BCCWJ)を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システムです。
動詞項構造シソーラス =>述語項構造シソーラス — Computational Linguistics Takeuchi lab
http://cl.cs.okayama-u.ac.jp/rsc/data
言語処理のための日本語の動詞辞書
人の言葉をコンピュータで処理するために動詞の概念を整理したコンピュータ用の 辞書を構築してfreeで配布しています(現在4425語(7473語義)).