読者です 読者をやめる 読者になる 読者になる

GOTCHA!

英語、仕事、勉強。いろんな「わかった!」をお届け。

Google翻訳の精度はなぜ上がった?翻訳者は不要になる?専門家に聞いてみた

語学とIT 翻訳・通訳 COOL Google翻訳

it_transletionn

このところ精度が上がったと話題のGoogle翻訳。「どうして精度が上がったの?」「自動翻訳が進化したら、人間が翻訳する必要はなくなるの?」こんな疑問を、機械翻訳について研究されている名古屋大学の中岩浩巳先生にお聞きしました!

中岩浩巳

中岩浩巳(なかいわ・ひろみ)
名古屋大学大学院情報科学研究科メディア科学専攻・特任教授、博士(工学)。アジア太平洋機械翻訳協会・会長。一般財団法人日本翻訳連盟・幹事。専門は、言語文脈理解技術。文脈を踏まえて自然言語をコンピュータに理解させるための機構・資源・翻訳について研究している。

Google翻訳精度を上げた、新しい仕組み

――少し前まではあまり実用的ではなかった自動翻訳ですが、今ではかなり精度が高まりましたよね。何か大きな変化があったんでしょうか?

 

中岩:そうですね。機械翻訳仕組みは、ここ40年で大きく変わってきました。1970年代後半には「ルールベース翻訳」という仕組みが一般的だったのに対し、90年代以降は「統計翻訳」が主流となってきました。

 

――ルールベース翻訳と統計翻訳それぞれどんな仕組みなのですか?

 

中岩:まずルールベース翻訳とは、「この単語はこう訳す」というルールを機械に登録し、そのルールに沿って翻訳していく仕組みです。英語であれば、文法や単語の意味などをひとつひとつ登録していく必要があります。

rule-based_
translation

ただこの仕組みですと、ルールに当てはまらないものが出てきた時に、困ってしまうんですよね。

 

――たしかに。ルールを登録しなければならないとなると、限界がありそうですね。

 

中岩:そこで、1990年頃に統計翻訳という仕組みが登場します。統計翻訳大量の対訳データを解析し、その統計結果から適した訳し方を割り出す仕組みです。統計的な考え方を用いるので、統計翻訳と呼ばれています。

statistical_translation

この統計翻訳が広まった裏には2つの理由があります。1つ目は、統計翻訳のソフト『Moses』がフリーで公開され、誰でもこの仕組み活用できたこと。2つ目は、統計翻訳がルールベース翻訳よりも人間の脳に近い言語処理方法だということです。人間の脳も、ルールで解析するのではなく対訳データから学んでいますからね。この仕組みで、機械翻訳のさらなる精度向上を狙ったのです。

 

――子どもの頃、文法などがわからなくても言葉が話せるようになるのは、「こういう状況では、このような表現をする」と学んでいるからですもんね。

 

中岩:そうですね。この統計翻訳という仕組みは、対訳データの量がカギとなります。基本的に、対訳データが多くなればなるほど、精度が高くなるんです。統計翻訳が出てきた当初は対訳データの量が不足していたり、計算に時間がかかったりしていました。

しかしこの問題点は、その後Webの時代に突入したことで解消されます。Webの登場によって大量の対訳データが流通し、コンピュータの精度も上がって高速処理が可能になったのです。これが機械翻訳における、ひとつのブレークスルーでした。

Google翻訳は、なぜ急に精度向上したのか

――最近精度向上したと話題のGoogle翻訳も、統計翻訳仕組み採用しているのですか?

 

中岩:Google翻訳の場合は、ディープニューラルネットを積極的に活用した翻訳方式によって精度が一気に向上したと思われます。

 

――「ディープニューラルネット」とはどんなものですか?

 

中岩:ディープニューラルネットは、機械学習のアルゴリズムの1つです。

それまでの統計翻訳では単語ごとの対訳データで翻訳をしていくイメージでした。一方でディープニューラルネットを使った翻訳方式では、単語の意味だけでなく接頭辞や語幹、単語の位置なども考慮し、自然な文の流れを分析して翻訳できるようになったのです。

neural_network

 

――なるほど、より細かい次元で翻訳することが可能になったのですね。

 

中岩:そうです。ディープニューラルネットを用いたことでより細かい翻訳対応することができるようになりました。

また先に申し上げた通り統計翻訳はデータの量がカギとなります。大量のクラウドデータを持っている企業、例えばGoogleやBing、中国のバイドゥ(百度)などは、データ収集の点で有利だと言えるでしょう。

 

――中岩教授から見て、Google翻訳はどのような印象なのですか?

 

中岩:データ量もケタはずれで、データの扱い方も上手いですよね。ディープニューラルネットは多層構造になっているので計算量が多く、時間がかかるのが難点でした。しかしGoogleは情報処理の速いコンピューターを導入するとともに、計算アルゴリズムを工夫することでその点を解消したのです。

また、Google翻訳自体は無料提供されていますが、その翻訳データを集めて別サービスで収入を得ている点も、上手くまわしているなと思います。

おそらく昔は対訳データが足りていなかったと思うのですが、今は網羅的に対訳データを収集できていることも、精度向上の一因となっていると思います。

それと、Googleには優秀な人材が集まっているのも強みですね。機械翻訳に関する人材は不足していて、私が出席する学会にも企業からのスカウトが多く来ています。

 

――優秀な人材が集まっていることと、網羅的にデータ収集ができることが、Google翻訳の大きな強みなのですね。

 

中岩:そうですね。通常ならば、分野ごとに対訳データを集めて、その分野の翻訳に活かすのが最も効率的です。例えば特許関連の資料翻訳しようと思ったら、特許資料の対訳データを機械に学習させて、翻訳するのが一番近道ですよね。

しかしGoogleはWeb全体の対訳データを網羅的に集めることが可能で、分野ごとに集めるというプロセスを経る必要がありませんでした。

ただ、ユーザーが訳そうとしている分野ごとに訳語を変えるなど調整はしていると思いますよ。例えば利用履歴に基づいて翻訳のスタイルを変えるとか。そういった仕組み導入している可能性があります。

 

――なるほど。数年前までは「自動翻訳?そんなに精度が高くないから、参考程度にね」なんていう声も多かったように思うのですが、急に成長しましたね。

 

中岩:今、機械翻訳の世界は激変期なんですよ。学者の間でも、2年前までは統計翻訳の研究をしていた人が多かったように思いますが、今やニューラルネットを活用した翻訳研究をしている人がかなり増えました。

それまでは単語の意味をつなげていくだけの訳し方でしたが、ディープニューラルネットが実現できたことで、かなりフレキシブルに翻訳ができるようになりました。今後活用できる場所はどんどん増えていくことでしょう。

自動翻訳に対する翻訳会社や翻訳家の反応は?

――Google翻訳など自動翻訳サービスが発展した今、翻訳業界はどのような状況にあるんでしょうか?

 

中岩:翻訳業界は今、グローバルな競争の時代です。欧米系の企業では、既に自動翻訳を使って作業効率化するのがスタンダードになっています。海外の企業からしてみれば、日本語に関しても同じように自動翻訳作業効率をアップすることを期待されるでしょう。

だからこそ、日本の翻訳会社も自動翻訳を使っていかないことには、生き残ることは難しいと思います。

 

――翻訳会社や翻訳家の方々は、自動翻訳に対してどのような反応をしていますか?

 

中岩:一概には言えませんが、先進的な企業や個人は興味を持っています。そういう人々は自動翻訳サービスに「仕事を奪われる」というよりも、活用することで「仕事が増える」と考えています。 作業効率化されれば、今よりも安く早く翻訳結果提供することができます。結果的に「仕事が増える」ということです。

 

ー―日本の企業で、実務に自動翻訳を生かしているところはありますか?

 

中岩:自動翻訳とは少し違いますが、言語処理仕組みに関しては、積極的に活用しようとしている企業も多いです。

例えばECサイトを運営している会社だったら、顧客に適した商品をオススメするために、顧客の言語データから思考を分析するとか。カスタマーセンターでの会話を分析して、商品開発に生かすなどの試みもあります。

ただ自動翻訳に関しては、日本ではまだまだこれからといった印象ですね。

 

――日本語英語は文のつくりが違うので、自動翻訳仕組みをつくるのも難しそうです。既に日英・英日の翻訳でも実務で活用できるレベルになっているのでしょうか?

 

中岩:特定の分野であれば、既に活用できるレベルだと思います。公文書などの実務翻訳といったような、ある程度定型文が決まっている分野ですね。

ただ欧米言語に比べると、日本語自動翻訳は発展途上です。欧米の言語は文のつくりも似ていて翻訳しやすいですが、日本語は同じようにはいきません。

それと、精度を高めるためには日本語の対訳データの数がもっと必要だと思います。

日本の課題は企業間の対訳データを共有すること

――日本語の対訳データの数は、足りていないのですか?

 

中岩:そうですね。日本のグローバル企業なんかは、対訳データをたくさん持っています。例えば商品の説明書ひとつとっても、日本語版の説明書と英語版の説明書があるわけですから、そこに対訳データが生まれますよね。ただ、社内では共有できても、社外に出すことに関しては積極的ではないのです。

 

――データ共有に積極的ではないのは、なぜでしょうか?

 

中岩:結局は手の内を明かすような形になってしまうので、なかなか積極的に外に出すのは難しいのでしょう。

クラウド上でそういった対訳データを蓄積していければ良いのですが、日本の企業は「クラウドで保管するのは不安、自社サーバーの方が安心」と考えるところが多いですからね。安全性に対する懸念が強いのが実情です。

 

――自動翻訳が進んでいる欧米では、どのように共有しているのですか?

 

中岩:欧米では、日本よりも対訳データの共有に対してオープンです。 例えば TAUSという翻訳ツールのプロモート組織では、会員になるために自社の対訳データを登録することが期待されています。会員になれば、他の会員が登録したデータを使うこともできるので、翻訳に関して協力関係を築けるのです。

 

――日本では、組織的にデータ収集をしようという動きはないのですか?

 

中岩:日本でもデータを収集するための動きが複数あります。例えば総務省が打ち出している「グローバルコミュニケーション計画」では、2020年の東京オリンピックに向けて「言葉の壁」をなくすための動きがあります。

また、研究者によって、データ収集プロジェクトも複数立ち上がっています。こういった動きが活性化することで、日本語の対訳データも集まっていくと思います。

人が翻訳する必要はなくなるの?

――対訳データが集まることで日本語自動翻訳もますます精度向上していくと思うのですが、将来的に人が翻訳する必要はなくなりますか?

 

中岩:それはないですね。人がまったく翻訳しなくて良くなるということはないと思います。と言うのも、データが取りにくい分野も多くあるからです。例えば通訳などは、現状のところデータが十分ではないと思います。

また新聞など翻訳しようと思ったら、文字数の上限がありますよね。文字数をふまえた上で翻訳するのは、自動翻訳では難しいでしょう。

それと、小説などの読み物も難しいですね。映画の字幕も、もはや翻訳というよりは創作です。こういった人の感情を揺さぶるための翻訳は、機械にはできないと思います。人間の創造性や知性が必要な部分まで自動翻訳がカバーすることはできません。

 

――人が翻訳する部分は、なくならないのですね。

 

中岩:そう思います。ただ、自動翻訳活用しなければ生き残れないという流れは、もう止めることができません。 日本語は欧米言語とは大きく構造異なるので、まだそれほど自動翻訳の活躍が目立ってはいませんが、これから翻訳業界は確実に自動翻訳と上手く付き合わなければならなくなります。

翻訳を勉強している人は、環境変化を意識してカリキュラムを組むことが大事です。先進的な大学では、既にそのようなカリキュラムになってきています。

 

――上手く付き合うというと、具体的にはどのようなことになりますか?

 

中岩:例えばまで100%人の手で翻訳していたところを、自動翻訳活用すれば30%に削減できるなど効率化をはかることができます。

また、求める品質によって自動翻訳だけに頼ることも可能でしょう。情報収集などで自分が読むだけの資料であれば、内容理解できるレベルで良いですよね。自動翻訳英語の記事を日本語に変換し、ちょっと変なところがあっても意味が理解できれば良いと思います。

一方で外部に出す文章は、自動翻訳に100%頼るのは難しいでしょう。情報を出す側には責任もありますし、誤解を与えない表現になっているか、正しい文章になっているかなどは、今後も人がチェックする必要があります。

まとめ

自動翻訳と上手く付き合わなければならないという翻訳業界の流れは、止めることができない」というお話が印象的でした。 一方で今後も翻訳に人の手は必要であると、中岩教授は指摘しています。すべてを自動翻訳に頼るのではなく、上手く活用するのが最も良い付き合い方なのです。 これから自動翻訳がどれだけ進化していくのか、どのように活用されていくのか、要注目ですね!

取材協力アジア太平洋機械翻訳協会

こちらもおすすめ!

gotcha!

構成・文:GOTCHA!編集部
GOTCHA(ガチャ、gάtʃə)は、I GOT YOUから生まれた英語の日常表現。「わかっ た!」「やったぜ!」という意味です。英語や仕事、勉強など、さまざまなテー マで、あなたの毎日に「わかった!」をお届けします。