中国語オンライン翻訳比較

中国語自習帳という面白いブログを見つけた。中国語の勉強に役立ちそう。
残念ながら2005年以降更新されていないようだが・・・


その中で、中→日オンライン翻訳10番勝負というのが興味深い。
これを見ると2005年時点ではExciteフレッシュアイがオンライン翻訳としては性能高そう。


で、最近の事情はどうか、確認してみた。
ちょっと探した限り見つかったのは以下のとおり。
数としては結構増えているようだ。
このほか有料系、無料だが登録が必要系などがあるがそれらは除外している。


サービス名 翻訳エンジン 簡体 繁体 簡体 繁体
→日 →英
Excite翻訳 KODENSHA × ×
OCN翻訳サービス KODENSHA × × ×
自動翻訳マジカルゲート KODENSHA改良版? × ×
Yahoo!翻訳 Cross Language × × ×
infoseekマルチ翻訳 Cross Language × × ×
フレッシュアイ翻訳 東芝 研究開発センター × ×
livedoor翻訳 AMIKAI × × ×
翻訳@nifty AMIKAI × × ×
ワールドリンゴ コンピュータ翻訳 ワールドリンゴ
Altavista Babel Fish Translation SYSTRAN × ×
ImTranslator.com SYSTRAN? × ×
Dictionary.com Translator SYSTRAN改良版? × × ×
Google 翻訳 Google独自 × × ×


中⇔日翻訳は、KODENSHA系、Cross Language系、AMIKAI系の3つが主流のようだ。


中⇔英翻訳はSYSTRAN製のものが幅を利かせているらしい。
Google独自開発の統計的翻訳システムを使っているらしい。


KODENSHAエンジンは、基本的な翻訳性能は変わっていないように見えるが、なぜか語末が断定調(〜だ、〜である)から丁寧調(〜です、〜ます)に変更されている。


自動翻訳マジカルゲートは、どこのエンジンを使っているかWEB上には明記されていないが、訳文を見る限りExcite翻訳、OCN翻訳サービスとほぼ同じであり、KODENSHA系と推測される。「ほぼ同じ」というのは、全く同じではないという意味で、どうも若干改善されているように思える。中→日オンライン翻訳10番勝負で使っている例文だと、10例ともほぼ同じだが、中文の「菜」を「野菜」ではなく「料理」と適切に訳しているところがExcite翻訳、OCN翻訳サービスと異なる。(「料理」の方が訳としては正しい。)


infoseekマルチ翻訳は2005年時点ではAMIKAIエンジンだったようだが、現在はCross Languageに変わっているようだ。
Cross Language系は、翻訳品質は2005年時点から全く変化していないように見える。少なくとも中→日オンライン翻訳10番勝負で使っている例文で試した限りでは全く同じ訳文が得られた。


フレッシュアイは東芝のものを使っている。
2005年と同じく基本性能は高いが、特に改善などはされていない模様。また繁体に対応している数少ないオンラインサービスである。ただし、繁体翻訳を選択していても、翻訳後のページのデフォルトが簡体選択に戻ってしまい、次の翻訳時にいちいち「繁体」を再選択しなおさないといけないのが難点。
Exciteは一度繁体を選べは次の翻訳も繁体をそのまま選択してくれる。


AMIKAI系も2005年から特に変化なし。KODENSHA系などと比べてしまうと、あまり翻訳品質は高くない・・・ように見える。


ワールドリンゴは独自エンジンか?
対応言語が幅広いが、フリーで翻訳できるのは一度に150文字の制限がある。ただし翻訳品質はあまり高くないように見える。AMIKAI系よりもイマイチ感が高いかもしれない・・・


SYSTRAN系は中⇔英翻訳なので、中⇔日翻訳と同じ土俵での比較はできないが、中⇔日翻訳でいい訳が得られなかった場合のセカンドオピニオンとして抑えておきたい。
全体としてそれほど悪い訳には見えないが、それでもところどころ結果の英文が破綻していたりする。興味深いのは、ワールドリンゴはSYSTRAN系の英訳を更に日本語訳しているのではないかと思われる点。ワールドリンゴがSYSTRANを利用しているわけではないだろうが、ワールドリンゴが内部的な処理として中国語→英語→日本語という風に処理しているのかもしれない。(もしくは内部的な形態素解析エンジンが英語ベースなのか)
Dictionary.com TranslatorもSYSTRANであるが、訳はAltavista Babel Fish TranslationやImTranslator.comに比べ、若干改善されているように見える。そのため「SYSTRAN改善版?」とした。


Google翻訳は独自理論の翻訳エンジン(統計的機械翻訳)を利用しており、もっとも奇抜な部類かもしれない。
統計的機械翻訳とは何ですか。

今日市場に出回っている自動翻訳システムのほとんどは、規則ベースで開発されており、言語研究者による語彙や文法の定義など多くの作業を必要とします。

Google の翻訳システムの手法は異なります。 ターゲットとなる言語で記述された単一言語のテキストと、人間が翻訳した他言語のサンプル翻訳テキストを対にしたものを大量にコンピュータに入れます。 そしてこれらのテキストに統計的学習手法を適用して、翻訳モデルを構築しています。 Google のリサーチ評価では、この手法が優れた結果をもたらすことが判明しています。

結論としては、2005年時点から翻訳エンジンの翻訳品質はほとんど改善されていないので、中→日オンライン翻訳10番勝負ででている結果がそのまま現在も有効としていいだろう。


ただし繁体字をメインで使う場合(台湾関係とかね)はExcite翻訳、自動翻訳マジカルゲート、フレッシュアイ翻訳しかない。(ワールドリンゴはちょっと埒外
自動翻訳マジカルゲートは、同じKODENSHA系のはずだがちょっと手が入っている。改善なのか、改悪なのかはケースバイケースかもしれない。改悪(?)例としては、Exciteでは「妳」を理解する(「あなた」の訳になる)が、マジカルゲートは理解できず「?」になる。
フレッシュアイ翻訳はExcite翻訳でダメダメな訳になるような場合でもいい訳をはじき出すことがあるが、上述したようにデフォルトが毎回「簡体」に戻されてしまうインターフェイス上の難点があるので使いにくい。
総合的に言って、普段はExcite翻訳、訳がおかしいと思ったらピンポイントでフレッシュアイを使うのが妥当かもしれない。


どうしてもCross Language系、AMIKAI系で繁体を通したい場合は、rtfconvとかでUnicode→繁体(big5)→簡体(GB)→Unicode変換してから簡体で翻訳する方法がなくはないが、ちょっと手間がかかる。