- 2018.09.20
- コラム
機械翻訳の実用化と翻訳者の役割
このコーナーではASCAの最新サービス情報などを伝えます。1回目はASCA Bulletin最新号の特集記事を紹介します。今後はキャンペーンなど、皆さまが得する情報を発信するつもりです。
「機械翻訳の実用化と翻訳者の役割」について、情報通信研究機構(NICT) フェローアジア太平洋機械翻訳協会(AAMT) 会長、日本翻訳連盟(JTF) 理事の隅田 英一郎氏にお話を伺いました。
機械翻訳の商用化
深層学習を取り入れたニューラル機械翻訳(NMT)の登場によって、機械翻訳の精度は大きく向上しました。私が所属する情報通信研究機構(NICT)では、このNMTのアルゴリズムを改善する研究を推進すると同時に、機械翻訳をいかに社会で活用していくかという枠組みづくりにも取り組んでいます。そのためには、機械翻訳を企業が商用ベースで導入し、産業構造に組み込んでいくことが不可欠だと考えています。
最近の事例として、この7月、私たちは東芝デジタルソリューションズ株式会社と共同で、特許庁の外部向けサービスの一環として、特許文書専用の高精度翻訳システムを構築し、2019年5月から稼働を開始することを発表しました(図1)。産業のグローバル化によって特許翻訳の需要は増大していたのですが、人手不足や高コストといった問題を解決するために機械翻訳によるソリューションが期待されていました。
図1 特許庁の「機械翻訳システム」の概要 (引用:http://www.nict.go.jp/press/2018/07/10-1.html)
このシステムの特徴は、NMTだけでなく、他のタイプの機械翻訳をも使い分けていることです。NMTは非常に流暢な翻訳文を出力できるのですが、訳抜けや誤訳が起こりやすいという問題があります。この弱点をカバーするために、特許文書を部分毎にタイプ分けし、NMT、ルールベース機械翻訳、統計的機械翻訳の中から適したエンジンに自動的に振り分けるようにしています。さらに、事前に文章を整形したり、対訳辞書を充実させたりなどもしています。
今回のシステムが選ばれた理由の一つにセキュリティがあります。特許文書には公開済みの公知情報と、出願中の秘密情報が存在します。後者の情報が漏洩することになれば、出願者がひいては日本の産業が大きなダメージを受けます。そのため本システムではデータセンターを国内に限定し、物理的なデータの持ち出しを防止しています。さらに前述のとおりソフトウェア部分も、NICTがNMTのエンジンを提供し、東芝デジタルソリューションズが言語処理のフレームワークを開発するという座組で、純国産技術で構築されます。
医薬分野での機械翻訳の導入
NMTのエンジンを構築するには、対訳データ(コーパスとも呼ばれる)が大量に必要です。現代の機械翻訳のアルゴリズムは、NMTの登場だけでなく、改良もどんどん進んでいますが、コーパスの存在が前提条件であり、これがなければ高精度翻訳は期待できません。特許文書で高精度NMTシステムが稼働できるようになったのも、特許庁との連携で数億文の対訳データを用意できたためです。
コーパスの収集は容易なことではありません。特に製薬分野では、各製薬企業が大半の文書のデータを保有しており、個別にアプローチを試みてもその意義を理解してもらうことは難しく、データの収集は難航しました。そこで私たちは、対訳データの集積のために「翻訳バンク」と呼ばれるプロジェクトを立ち上げ、総務省とともに運用しています。これは特定の分野に限らず、様々な企業が保有している技術文書の多言語データを公共の目的として収集し、多様な分野で精度の高い機械翻訳エンジンをオールジャパンで構築することを目指す取り組みです(図2)。
その結果、製薬分野では今年になって2つの企業との提携に成功しました。まずはアストラゼネカ株式会社との間で機械翻訳システムの共同研究を実施することとなり、同社のデータを用いて翻訳システムの実用性を検討する研究がスタートしています。医薬分野に特化した精度の高い機械翻訳システムが開発されることで、翻訳作業が効率化し、新薬をはじめとする薬事申請をより迅速にできることが期待されます。
ポストエディットの意義
機械翻訳の導入によって、翻訳者をはじめとする人手での作業が不要になるかというと、まったくそうではありません。NMTを含めた機械翻訳は、原文の意味を理解する用途には非常に有効ですが、そうでなく、パブリケーションレベルの文章を生成するにはまだ不十分な技術です。品質保証の観点から、人間が確認するプロセスを省略することはできないでしょう。その意味で、ポストエディターの役割は非常に重要となっており、こうした人材に対する需要は増すばかりでしょう。逆に、機械翻訳の普及は、どれだけこうした人材を育成できるかにかかっているとも言えます。
NMTの登場によって、ポストエディットという仕事の持つ意味は大きく変わりました。1つ目は、これまでの統計的機械翻訳とは異なり、NMTのポストエディットでは作業量が大幅に減るだろうということです。つまり、開発初期の統計的機械翻訳で出力される文章はぎこちないものでしたから全面的な修正が必要で、ポストエディットは普通に翻訳するよりかえって手間がかかるという問題がありました。それが、流暢な翻訳を生成するNMTであればその負荷が改善されるだろうということです。2つ目はその逆の側面で、NMTが流暢な訳を出すことによって誤訳がむしろ見つけにくくなり、その検出にスキルが求められるようになったということです。一見問題なさそうな訳文から素早く誤りを見つけて適切に修正するには、言語と専門性の両方を兼ね備えている必要があると考えています。
したがって、ポストエディットは大変で退屈な嫌われがちな「お仕事」ではなくなっており、翻訳者が効率性を意識しながら、自分の経験や知識を動員して行う高度な知的行為に変わったといえます。このワークスタイルの転換には、情報提供や教育システムの整備など、業界からの後押しも必要です。日本翻訳連盟などの業界団体や翻訳会社が翻訳者を支援し、新しい翻訳という仕事のロールモデルを作り上げることを期待しています。
(ASCA Bulletin 20号 2018年8月発行より)
Bulletin 20号には他にも興味深い記事が満載です。
是非ともお読みください。