AI翻訳という技術について
- AI翻訳ラボ
- AI翻訳という技術について
このページでは、AI翻訳の技術的側面や、言語スキルとしての翻訳との違い、社会への導入などについてまとめています。
AI翻訳とは
AI翻訳は、機械翻訳または自動翻訳とも呼ばれ、言語をコンピュータを用いて変換する技術です。近年になってAI翻訳と呼ばれるようになったのは、その基盤技術として人工知能(AI)を用いているためです。
かつての機械翻訳は、長い文章の処理は苦手であり、いかにも機械が処理したようなぎこちない翻訳文しか出力できませんでした。しかしAIの代表的技術である深層学習(ディープラーニング)を取り入れることによって、翻訳文の流暢さがあたかも人間が使う言葉のように改善されました。また長い文章の翻訳精度も向上しています。
AI翻訳は多くのウェブブラウザに採用され、海外のウェブサイトを閲覧する用途など一般の人にも幅広く使われるようになってきました。もちろんどのような言語、いかなる文章でも完璧に訳せるというわけではありませんが、多言語コミュニケーションの可能性を広げる次世代のツールとして期待されています。
AI翻訳と人間の翻訳
AIの最も得意とすることは「予測」です。株価変動や明日の天気など、これから起こる事象の予測にAIはすでに活躍を見せています。実は、翻訳においてAIが行っていることも原理としては変わりません。過去に行われた翻訳のデータを学習して、新しい文章を見たときにこう訳すのではないかという推論を行う、というのがAI翻訳の機能です。
では人間が行う翻訳との違いは何でしょうか。AI翻訳にとって翻訳とは、過去データに基づく推論にすぎません。もとの文章の意味を理解しているわけではありませんし、相手への伝わりやすさを考慮しているわけでもありません。人間のようになぜこう訳したのかを説明することもできません。
このことから言えるのは、AI翻訳は翻訳の結果に対して責任を持つことは難しいということです。たとえば天気予報が外れたとき、晴れ予報なのに雨が降り出してきて傘を持っていなければとても困りますね。しかしだからといって天気予報を発表したテレビ局やウェブサイトにその都度クレームをつけるわけにもいきません。AI翻訳も同じで、なるべく精度の高い予測を目指してはいるものの、ひとつひとつを見れば誤訳だということは往々にしてあります。天気予報だと、降水確率のように予測の確からしさをパーセントで表しています。AI翻訳では現在のところそのような技術はまだ研究途上ですが、それがわかれば誤訳になっていそうなところを気をつけて読むというようなリスク回避はできるかもしれませんね。
では翻訳は無責任な仕事でいいのかというと、決してそうではありません。翻訳によって伝えられる情報の中には、私たちの安全や健康につながる重要なものもあり、誤訳が許されない局面は確実に存在します。例えば海外で作られた機械の操作マニュアルや薬の用法・用量に誤りがあったら、安心して使うことができませんね。そのようなときこそ、人間の出番です。本当に伝達するメッセージの正確性が求められる場合は、言葉の意味を理解でき、適切な表現をすることができる翻訳の専門家が翻訳した文書を用いることが望ましいです。また、AI翻訳を使う場合にも、最低限人間が内容の妥当性をチェックする必要があります。
AIは現状では「完璧」な技術ではありませんので、人間側にもその特性を理解してうまく活用していく意識が重要です。
AI翻訳の品質
AI翻訳の翻訳品質が劇的に向上したのは、深層学習(ディープラーニング)と呼ばれるAI技術の貢献が非常に大きいです。深層学習は人間の脳神経ネットワークを模した多層構造の計算アルゴリズムであり、既存のデータからその特徴を学び、階層構造を持った推論モデルを作ります。翻訳だけでなく、他の自然言語処理や音声・画像処理にも幅広く活用されています。
AI翻訳を開発するには、この深層学習モデルを構築するための大量の学習データが必要になります。翻訳の学習に使うのは翻訳のデータです。すなわち、2言語がペアになった文章(パラレルコーパス)を用意することになりますが、その量と質がAI翻訳の品質を左右します。
一般に利用されているAI翻訳システムは、ウェブ上などから大量の学習データを取得していることが多いのですが、そのデータは特定の分野や用途に合わせたものではありません。したがって、これらのシステムでは特定の分野、特に専門性の高い分野ではあまり翻訳精度は高くなりません。専門分野固有の語彙や表現をうまく出力するには、それに合わせたパラレルコーパスを用意し、学習させる必要があります。
AI翻訳と関連技術
AI翻訳は技術的には機械翻訳と呼ばれ、自然言語処理技術のひとつの応用型となります。自然言語と言っても、大学の文学部などで取り扱う言語学ではなく、コンピューターサイエンスに含まれます。つまり自然言語というのはコンピュータ言語に対する言葉であって、人間が用いる言語をどのようにコンピュータ上で表現するかということを追求する学問になります。
自然言語処理技術のなかでも、AI翻訳はいちはやく社会実装が進んだ技術のひとつです。そして同時に、とくにAI技術の進歩によって他の自然言語処理技術も盛んに研究が進んでいます。その最たるもののひとつが、検索技術でしょう。「ググる」という表現がもう定着してしまっているように、現代の生活で検索をすることは私たちの日常に溶け込みつつあります。かつては図書館に行って調べたりしなければいけなかったことが、いまではほとんどスマホからの検索で事足ります。そして検索技術そのものも、インターネット初期の頃は単純なテキスト検索しかできなかったものが、いまや画像検索、サジェスト検索など機能も格段に進歩しています。これらの進歩の背景には、AIを中心とした基盤技術の発展があるのですね。
翻訳により近いところでは、音声翻訳も隣接技術に挙げることができます。音声翻訳とテキスト翻訳の違いは、人間の話したことが翻訳データになることです。実際には音声翻訳は音声認識→機械翻訳→音声出力という主に3つの技術の組み合わせです。音声認識は、音波データからノイズを避けて人間の言葉を取り出し、テキストデータに変換します。音声出力は、翻訳したテキストデータを自然なイントネーションになるように分析し、音声として出力します。その他にも、チャットボットやテキスト要約など新しい技術も自然言語処理技術から生まれており、未来の私たちの生活を彩っていくことでしょう。
ITとAI翻訳
AI翻訳はすでに私たちの日常に浸透していると言っていいでしょう。ウェブサイトを見ていても、外国語で書かれていれば翻訳アイコンをクリックすれば日本語に変換されますし、海外旅行をするときも翻訳機を持っていけばボタンひとつで私たちの代わりにしゃべってくれます。これらのことはスマホでもできるようになりつつあります。
ではAI翻訳はどこで何をしているのでしょう?AI翻訳が行っているのは膨大な計算です。人間のように文章の意味を理解し、外国語でそれに対応する表現を調べ…という方法で翻訳をしているのではなく、AI翻訳はテキストを数値に変換し、それを計算によって他言語に置き換える処理をしています。したがってAI翻訳の実体はその計算を行うためのAIアルゴリズムであり、それに基づいてコンピュータは演算処理をします。
そして多くの場合、翻訳処理はPCやスマホに内蔵の演算器を使うのではなく、外部サーバーに計算を任せています。PCなどの端末からは、翻訳元のテキストデータをインターネット経由で外部サーバーに送信し、翻訳結果をまた外部サーバーから受け取るという処理を行っています。なぜなら翻訳の計算量はきわめて膨大であり、そのために設計した高演算力を持つサーバーに処理を任せたほうがよいからです。このようなサービスはクラウドサービスと呼ばれます。「クラウド」という名前がかなり普及しているように、この仕組を利用したウェブサービスは現在の私たちの社会生活の基盤となっています。
このようにAI翻訳は機械的計算とインターネット通信を前提にした技術です。翻訳はかつては辞書と原稿用紙を用いた紙の仕事でしたが、いまではITインフラ環境と切っても切り離せない関係になっています。