コラム

  • 2021.11.29
  • コラム

医学・医薬特化AI翻訳 "AIKO SciLingual" リリース記念セミナーのご報告

「医学・医薬に特化したAI翻訳の実力、効果的な使い方」講演録

11月19日、立教大学 異文化コミュニケーション学部 教授である山田優先生に「AI翻訳の実力、効果的な使い方」と題し、第一部をご講演いただいた。

1. ドメインアダプテーションとは?

AIKO SciLingualに標準搭載されているSciLingualは、医学・医薬に特化した英語-日本語間のAI翻訳エンジンである。国立研究開発法人情報通信研究機構(NICT)が開発した汎用性の高いAI翻訳エンジンに、転移学習(ドメインアダプテーション) と呼ばれる技術を用いてさらにデータを追加して学習させることにより、分野特化させている。

SciLingualの学習には、医学・医薬分野の対訳データ(パラレルコーパス)が用いられている。アスカコーポレーションでは、分野特化のために必要なデータは何かを研究、分析したうえで、公開されている臨床試験などのデータから原文を収集し、同社で人手翻訳を行って対訳データを作成した。さらに機械学習に適合するように自然言語処理技術によるデータ処理を行い、構築した独自のデータを用いてドメインアダプテーションを実施して生み出されたのがSciLingualである。

医薬分野の文章を翻訳させてSciLingualの性能評価を行ったところ、汎用型のAI翻訳エンジンと比較してBLEUスコアにおいて顕著な改善が確認された。英→日、日→英ともに10ポイント以上スコアが上昇しており、さらに文章を臨床、非臨床、学術論文の3つのジャンルに分けてみてもすべてのジャンルで同様にスコアが伸びていた。また、固有名詞に強いこともSciLingualの特徴であり、汎用型のAI翻訳エンジンでは誤訳になりやすい医薬品の名前もかなり正確に翻訳することができる。

yamada1.png

yamada2.png

2. ドメインアダプテーションの実力とは?

このようにSciLingualにも用いられているドメインアダプテーションの技術は、AI翻訳エンジンの分野適合性を高めるのに有効な技術である。まだ産業翻訳の現場には十分に浸透しているとは言い難いが、だからこそSciLingualの開発は先進的な取り組みだと言える。

これを受けて、ドメインアダプテーション技術の有効性をより詳細に調べるために、SciLingualを開発したアスカコーポレーションと共同で産学共同研究を実施した。

今回研究対象としたのは、ドメインアダプテーションに使うデータが異なる場合に、後編集(ポストエディット)にどのような影響を与えるかということである。ポストエディットとは、AI翻訳の翻訳結果が正しいかどうかを確認し、誤り箇所がある場合に訂正して正しい翻訳に仕上げるための工程である。この工程は翻訳者が担うことが多いが、実際にポストエディットを行った翻訳者から見た選好性、品質評価、効率性を検証している。評価に用いたAI翻訳は2種類で、ひとつは治験実施計画書という治験で使用される文書だけからデータを抽出してアダプテーションを行ったエンジン、いわば高純度のカスタマイズを行ったエンジン(MT1)。もうひとつは他の文書も混在させた準カスタマイズエンジン(MT2)。MT1のほうが翻訳精度が高くなり、ポストエディットの評価も高くなるだろうと仮説を立てている。

まず選好性では、MT1のほうが選ばれた割合が高かった。これは原文に対してMT1とMT2の2つの訳文を提示し、どちらがよく見えるかを選ばせたものである。MT1が64%、MT2が36%という差がついた。

品質評価としては、ポストエディット時に見つけたエラーの分類を行った。MT1とMT2の間でエラーの傾向は概ね同じであったが、用語の正確さはMT1のほうがMT2より明らかに少なく、分野特化がうまくできていることを示している。この傾向は翻訳者への聞き取りでも同様の印象を持っていることが確認された。

yamada3.png

最後に効率性を翻訳者にヒアリングしたところ、MTを使うことによって60%~80%程度の作業効率が改善するとの回答が得られ、アダプテーションエンジンを翻訳業務で使用することについてポジティブな印象を持っていることが伺えた。

以上、本研究でもアダプテーションエンジンの有効性が確認され、またアダプテーションの効果を高めるには学習させるデータと特化させたい分野をリンクさせることが重要であるという知見が得られたと言える。

二部では具体的なAIKO SciLingualの特徴や使い方を説明し、14日間のトライアル期間があることを紹介した。詳しくはhttps://www.asca-co.com/lp/まで。

ページの先頭へ