English
大規模オープンソース日英対訳コーパスの構築
このページでは,石坂他(2009)で発表された日英対訳コーパスのうちで,著作権の観点から対訳データを配布可能なことが確認されたものをリストします.ここにリストされている対訳データの編集著作権については,そのライセンスはCreative Commons Attribution-Share Alike 3.0 Unportedとしますので,御活用下さい.ただし,この対訳データを利用する際には,対訳データのライセンスだけでなく,原文(英語)と訳文(日本語)の双方のライセンスに従う必要があることに御注意下さい.
リストの仕方は以下の通りです.
対訳データを収集したソフトウェアの名前
- 英語サイト: 英語サイトのURL / ライセンス
- 日本語サイト: 日本語サイトのURL / ライセンス
- 対訳データ: 対訳データ
英語文書と日本語文書は対訳データを作成するときに利用した文書です.
対訳データを展開すると,以下のディレクトリができます.
je/
align/:アライメントの出力結果
align/ 以下のファイルは以下の構成になっている
SCORE ||| NM ||| JA ||| EN
===============================================
名前 意味
-----------------------------------------------
SCORE 対訳の正確さのスコア(min 0 max 1)
NM 日本語文が N 文 対 英語文が M文
JA 日本語文
EN 英語文
===============================================
para.txt:align/以下のファイルでNMが1-1,1-2,2-1の行を抜きだしたもの
para.txtは以下のような構成になっている
SCORE ||| JA ||| EN
日本語は EUC でエンコードされている.
対訳データのリスト
FreeBSD
Gentoo_Linux
JM
JF
NetBeans
PEAR
PHP
PostgreSQL
Python
XFree86
Last updated: Wed May 20 14:25:13 JST 2009