早川:ASCAが設立された1995年から30年の間に翻訳を取り巻く技術的環境は大きく変わりました。PCのフロッピーがクラウドストレージになり、分厚い紙の辞書がオンライン辞書になり、Google検索すれば図書館に行く必要がなくなりました。こうした変化に加え、機械翻訳(MT)、とりわけ2016年前後のAIを基盤としたニューラルMT(注1)の登場は翻訳業界の脅威でもあり、大きなブレイクスルーであったと感じます。時同じくして市場のグローバル化が進み、納期短縮、精度の安定がより強く求められるようになりました。
そうしたニーズを可能にするのが新しいテクノロジーです。本日の対談では、その技術運用を実現するための鍵である日本特許翻訳社の本間社長と、memoQ社の三浦氏をお招きし、取り組みの経緯、現在の技術、未来の翻訳についてお話しいただきます。
ニューラルMT+CATツール
早川:ニューラルMTが登場するまでのMTは医薬翻訳の分野ではあまり活用されていませんでしたが、ニューラルMTは画期的な技術であり、私たちのサービスを大きく改善するものと確信しました。この有用なツールを翻訳ワークフローに取り入れるために、私たちは試行錯誤を重ねてきました。医薬特化型のエンジンを開発したものの、初期の頃はテキストでの出力しかできず、どうやって翻訳作業に取り入れればよいか頭を悩ませました。また、MT特有の訳語のブレなど、翻訳品質面でも解決すべき問題は山積みでした。
そんな時、ふと手に取った書籍(注2)をきっかけに本間様とコンタクトを取り、技術面でご協力をいただいて翻訳支援(CAT)ツール上でのMTの活用が可能になり、ポストエディット(PE)への移行が大きく進展しました。また、現在はAIKO SciLingual(注3)として提供している医学・医薬分野特化型MTの開発が実現できたのも日本特許翻訳社の技術支援の賜物と考えています。
こうした取り組みを経て、現在はProTranslator Express(注4)というプラットフォームを提供いただいているのですが、開発のコンセプトについてお聞かせください。
本間:初期のRNN(注5)を用いたニューラルMTは訳抜けや誤訳などの課題も多かったのですが、後に登場するtransformer(注6)モデルになって改善されました。国内の研究機関である国立情報通信研究機構(NICT)が同モデルを採用したのを機に、ASCA社の協力を得てこのMTをベースにしたサービスを開発しました。それがProTranslator Express の前身であるProTranslatorです。
ドメイン・アダプテーションの登場
ProTranslatorのコンセプトのひとつは、ドメイン・アダプテーション技術によるアダプテーションMTの活用です。ドメイン・アダプテーションとは、NICTモデルのような基盤となるMTエンジンに追加でデータを与えて学習させ、特定分野での翻訳精度を高める手法です。私たちのターゲットとする特許分野や、ASCA社のターゲットとする医薬分野のような専門分野では、いわゆる汎用型のMTはあまり有用ではありません。そこで、ProTranslatorというプラットフォームを通じて特化型のアダプテーションMTを作成できるようにしました。アダプテーションMTに着目していた翻訳会社はほとんどなかったので、ASCA社が差別化できる大きな強みになったと思われます。
現在はProTranslator Expressとしてバージョンアップし、複数のMT出力を参照できるマルチNMTなど、翻訳の生産性を高めるさまざまな機能を追加した翻訳管理システム(TMS)となっています。ProTranslator ExpressではバックグラウンドのシステムとしてmemoQ TMSを採用しています。ProTranslator Expressのような多機能のTMSが構築できたのも、memoQのカスタマイズ性の高さに依るところが大きいです。
ニーズに沿ったCATツールの導入
早川:ProTranslatorからProTranslator Expressに進化したことによって、これまでは案件ベースでさまざまであった翻訳ワークフローが整理され、私たちの業務効率化に大きく貢献しています。また、ProTranslator Expressで取り入れているmemoQはCATツールとしても高機能で、翻訳者にも使い勝手が良いと好評です。このmemoQは、どのようなビジョンで開発されたアプリケーションなのでしょうか?
三浦:私たちはmemoQ TMSとmemoQ translator proという2つのプロダクトをリリースしています。前者はProTranslator Expressにも採用いただいているTMSであり、後者はデスクトップ型の翻訳エディタとなります。私たちの目指すところは、翻訳者の皆様にとって使いやすいツールを提供するということに尽きます。
現在の開発計画もその理念に基づいています。いま導入を進めている次世代機能TM+は、大容量化するTMをより快適に使うために処理の高速化を実現した翻訳メモリエンジンです。またICR(in country review)機能は、ローカライズ業務で非翻訳専門家の現地担当者がレビューを行う際に、CATツールの知識がなくとも迅速にレビューを行えるように機能を最適化したツールとなります。さらにダークモード(注7)の追加など、翻訳作業の効率化を推進するために細やかなところまでカバーしています。
大規模言語モデル(LLM)の登場
早川:ProTranslator ExpressとmemoQによってMTの活用は著しく進みましたが、私たちはここで立ち止まっていてはいけないと考えています。近年、AIの主流技術はMTなどの個別モデルから、マルチタスクをこなせる大規模言語モデル(LLM)(注8)に移りつつあります。これを踏まえて、これからの翻訳に関わるテクノロジーについてご見解をお聞かせいただけるでしょうか。
本間:今後はMTからLLMが翻訳技術の中心になっていくと予想しています。その意味では、現在は2016年に近い状況で、これから翻訳を巡る環境は大きく変わっていくと考えています。
具体的には、LLMでのドメイン・アダプテーション技術が浸透し、大規模コーパスに代わってTMなどを学習に用いたモデルが登場すると考えています。つまり、案件単位のエンジンが構築される時代が到来します。そしてファジーマッチの処理や用語の制御など周辺的なタスクもLLMが担っていくことになるでしょう。
三浦:弊社は先日、memoQfest(注9)というイベントを本社があるハンガリーで開催しました。ここでも翻訳の未来像がテーマとなり、LLMを活用することで現在の翻訳、MTPEとはワークフローやあり方が変わってくるという主張がなされました。例えばpost-post-editing(注10)というコンセプトが紹介されましたが、これは本間氏の考えと同じです。つまり世界的にも、人間の仕事をLLMが代替していくだろうと予想されています。
一方で、LLMに直ちにすべてを丸投げできるわけではなくて、それをコーディネートするのは人間の役割だという提言も行われています。LLMはインターン生のようなもので、スペシャリストとしての人間の指導役が必要だという意見もありました。まだ人間がやらなければいけない仕事はありますし、その人間が扱う部分をやりやすくするのがmemoQのミッションです。
本間:LLMの普及によって、AIに任せられる部分は大きく増えますが、要件を決められるのは人間しかいません。LLMがどういう役割を担いうるのか、アイデアを出していくことが重要です。近年、AI関連の特許は中国からの出願が急増しています。手をこまねいていたらLLMでやろうとしていたことはいつの間にか特許を取られていて、中国に特許料を払わないといけなくなってしまいます。
私たちのスタンスは、実験的なアイデアを迅速に形にしていくことです。今後もASCA社と協力して、特許が取れるようなサービスを世に出していきたいですね。
早川:2016年に登場したMTは現在では成熟した技術になっていますから、翻訳におけるこれからのLLMの役割には大きな期待が持てます。ただ、新しい技術の普及には、技術そのものが進歩するだけでは不十分で、私たちにとってのMTの導入がそうだったように、トライアル・アンド・エラーを重ねていくこと、検証や考察を続けていくことが重要だと考えています。翻訳者さん含むパートナーさんとの協力も必要です。幸いにも、今日ご参加いただいた心強いパートナーが私たちにはいます。納期などの市場のニーズに応えるだけでなく、今まで翻訳対象にならなかった文書や、ドキュメント作成への広がりも含め、翻訳というサービスの新しい価値を創出できるようにこれからも取り組んでいきたいと考えています。本日はありがとうございました。
注1
Neural Machine Translation(NMT)。AI技術であるニューラルネットワークを用いてテキストを翻訳する技術です。従来の統計的機械翻訳(SMT)やルールベースの翻訳システムより、翻訳の質が大幅に向上し、より自然で流暢な翻訳が可能になった。
注2
「特許実務者・研究開発者のためのAI機械翻訳の最前線」本間奨, 一ノ瀬桂子, 山口政隆, 新田順也 著, 日本特許翻訳 (2018)
注3
医学・医薬に特化したAI翻訳プラットフォーム。臨床、非臨床などの医薬文書、医学論文などの独自に収集・翻訳したデータを基に自社開発した専門エンジン SciLingual を搭載し、製薬企業やアカデミアを対象にサービス展開している。
注4
日本特許翻訳株式会社が提供する翻訳管理システム。ASCAはProTranslator Expressをサービスの基盤とするため開発段階から関わっており、独自のMTエンジン (SciLingual) の搭載を含め医薬品開発ドキュメントの翻訳ワークフローを最適化するシステムとして運用している。
注5
Recurrent Neural Network。時系列データやシーケンスデータを扱うために設計されたニューラルネットワークの一種。
注6
現在の自然言語処理AIモデルの主流となるアーキテクチャ。注意機構 (Attention) の搭載により処理パフォーマンスと解釈性が向上し、MTやLLM (注8) の発展に大きく貢献した。
注7
背景色を暗い色(黒や濃いグレー)にし、テキストやアイコンを明るい色にする表示モード。目の疲れを軽減する効果がある。
注8
自然言語処理(NLP)の分野で使用される高度な機械学習モデルの一種。これらのモデルは、大量のテキストデータを用いてトレーニングされ、言語を理解し、生成する能力を持っている。
注9
翻訳支援ツール(CATツール)の開発会社 memoQが主催する年次カンファレンス。memoQfest サイト(https://memoqfest.com/)
注10
MT処理の後工程として行われるpost-editingのさらに下流の品質管理工程で、post-editingよりも細かい部分に焦点を当てた修正作業が想定される。
日本特許翻訳株式会社:
https://www.npat.co.jp/
memoQ:
memoQ | Translation and Localization Management Solutions
三浦 陽
memoQ Translation Technologies Ltd.
Senior Sales Manager
memoQ社で営業・イベント企画を担当。前職の翻訳会社ではプロジェクトマネージャー、ローカライズエンジニアを経験し、memoQ社に入社後はテクニカルサポートやソリューションエンジニアとしてユーザーサポートを担当したのちに、現在日本担当営業。
20年以上の翻訳業界での経験を活かし、現場に沿った効率的なワークフローの提案、デモの実施、導入後のサポートを担当している。
本間 奬
日本特許翻訳株式会社 代表取締役社長
富士ゼロックス株式会社で有機感光体用機能材料の研究に携わり、2000年から特許情報検索システムDocuPatの事業立ち上げ・推進を行う。その後日本発明資料で開発した英日・中日翻訳システムMT Plusは現在100万件以上J-PlatPatで利用されている。
2015年2月、日本特許翻訳株式会社を設立、外国公報の多言語高精度機械翻訳サービス(NICT SMT使用)を提供開始。2023年7月、memoQオンプレミス版をコアとした統合翻訳環境ProTranslator EXPRESSをリリース。
早川 威士
株式会社アスカコーポレーション 開発部 ML/NLPスペシャリスト
2006年株式会社アスカコーポレーション入社。プロジェクトマネージャーなどの経験を経て、2017年から機械翻訳(MT)モデルの研究開発およびMTを用いた翻訳システムの設計・導入に従事する。機械翻訳の精度評価や分野特化型MTの構築にも取り組み、医学・医薬分野特化翻訳モデルであるSciLingualを開発する。第18回AAMT長尾賞共同受賞。