Trados 2024を使ってみた

毎年アップグレードされる非常に高価なCATツールTrados。その最新版2024を使ってみました。

https://www.trados.com/jp/resources/whats-new-in-trados-studio-2024-webinar-recording/

のセミナーでTradosの新機能が紹介されていますが、何と言っても目玉は生成AIの実装でしょう。ChatGPTとMSAsure Open AIのオプションがあり、APIキーをいれると生成AIの翻訳がサジェストされ、なおかつ、提示された訳に対して以下のようなOut of boxのプロンプトが用意されています。

プロンプトは追加可能。セミナーでは「体言止めにする」などプロンプトが紹介されていました。またここで注目すべきは用語集を前もって入れておけば、用語集の用語を使ってくれる。ただしこれは、生成AIをTrainするということではなく、返ってきた訳に対して、用語集と比較して、違うものは訂正されるといったもの。確かに便利ですが、生成AIが乱立する中、2つのAIしか使えないというのは、ちょっと幅がないかもしれない。

(実はこの考え方、実はデプロで4年前からご提供しているMT Adjustedと同じ考え方なんです。MTAdjustedでは、返ってきた訳に対して、用語集の適用、スタイルの修正などを行います。)

ちなみにTradosでは、バージョン2019まではGoogle TransをAPI経由でエディターから直接使用できたのですが、2021、2022ではLanguage Weaverのみに使用可能に変わっているようです。(デプロでは2019のライセンスを残し、必要に応じて使っています。)今回の更新で、2024では特に特別な知識は無くても、生成AIを個人ベースで翻訳フローに導入できるようになったというわけです。

ただ、それにしてもライセンスが高い!毎年新しいバージョンが出て、毎年ツールの維持だけで、こんなに高い費用が掛かるのは残念です。今回40周年記念ということで、40%オフのキャンペーンを利用してフリーランス版をまず購入してみたのですが、Pro版は本当に本当に高価で、費用対効果をじっくり考えて購入する必要あり、という結論に至りました。

次回はデプロでの生成AIを使用した取り組みについてご紹介します。

MadCap Flareファイルセットの翻訳はデプロにおまかせください!

MadCap Flareで作ったファイルセットがあって、これを翻訳したいのだけれど、どうしたらいいのでしょうか。

そんなお問い合わせを頂くことがあります。デプロでは過去15年にわたり、
MadCap Flareを使って作成されたソースファイルの翻訳フローについて、ナレッジを蓄積してきました。
ファイルセットを丸ごとお渡しいただければ、翻訳用ファイルセットの作成(必要な場合、設定のカスタマイズも含む)、翻訳、コンパイル、チェック、最終出力、アセットの管理まですべておまかせいただけます。

MadCap Flareとは?
MadCap Flareはオーサリングツールのひとつで、xmlベースのシングルソースから複数のアウトプットを生成できるツールです。たとえば、PDFとHTMLの双方を出力したいとき、製品が複数ある場合、共通のファイルは共有し、製品固有のファイルは別々に処理して最終的に製品ごとのPDFやHTMLを出力したりできます。
翻訳する際には、翻訳対象のファイルをMadcap独自の設定を適用して、TradosなどのCATツールに読み込み、翻訳します。翻訳完了後、ターゲット言語でファイルをエクスポートし、MadCap Flareのファイルセットに戻し、コンパイルして出力します。イメージは以下のとおりです。ファイルセットの中に含まれている画像も翻訳します。画像キャプチャがある場合はローカライズ画像に置き換えて、大きさを整え、出力ファイルに含めます。英語のキャプチャ画像は日本語の画像と同じサイズとは限らないので、必要に応じてHTML上で調整します。

コンパイル段階では、弊社の経験豊富なエンジニアがファイルセットに含まれるCSSファイルなどを日本語環境に合わせて調整します。その後、コンパイルしてPDFの場合は、1ページずつ、OLHの場合は、HTMLを1ファイルずつ比べて、チェックを行います。

ここで、翻訳の段階で気を付けなければいけないこと、翻訳メモリに何らかのマーキングをいれておく必要が出てくると、翻訳のスタイルガイドに指示を加えたり、翻訳メモリにマーキングを追加します。CATツールでは処理できないものはCATツールからエクスポートしたターゲットファイルに処理を加えます。次回、同じところが発生すると思われる個所はスクリプト化しておきます。この処理により、MadCap Flareソースファイルが更新された場合、バージョンアップされた場合に効率よくファイル処理が出来ます。

エンジニアコストの算出方法
デプロではMadCap Flareのプロジェクトをハンドリングする際のエンジニアリングコストは、出力ベースで以下のメトリックに従ってお見積もりしています。
PDF:40ページ/1時間
OLH:100トピック/1時間
CHM:デコンパイルしたHTMLの数により上記OLHのメトリック 100トピック/1時間

例:出力がPDF、CHM、OLHの3種類で
PDF(120ページ)、HTML(Online Help)(230ファイル)、CHM(デコンパイル後200ファイル)の場合

PDF出力:計5時間
日本語環境のセッティング 1時間
コンパイルチェック 120ページ /40=3で3時間とカウント
最終出力 1時間

OLH出力:計4.5時間
日本語環境のセッティング 1時間
コンパイルチェック 230ページ /100=2.3で2.5時間とカウント
最終出力 1時間

CHM出力:計4時間
日本語環境のセッティング 1時間
コンパイルチェック 200ページ /100=2で2時間とカウント
最終出力 1時間

なお、翻訳メモリの適用、過去のファイルからのパーフェクトマッチ処理等は、エンジニアリングコストとは別に翻訳前のファイル処理として、プロジェクトファイル1ファイルに付き1時間分のコストがかかります。

アセット管理
翻訳終了後は、翻訳メモリ、バイリンガルファイルに必要なマーキング、カテゴリを追加して次回の更新用のアセットを作成いたします。こちらは特別な処理がない限り、プロジェクト管理費に含まれます。

不明点がございましたら、どうかお気軽にお問い合わせください。

 

デプロのMachine Translation(機械翻訳)への取り組み

デプロではお客様のニーズに沿った機械翻訳(以下MT)への取り組みを行っております。
その取り組みの歴史は長く、2011年に弊社のクライアントの1つであるマルチリンガル・サービス・プロバイダー様からMTについてのトレーニングを受けたのが最初です。その時はまだ日本語に適用できるレベルではなかったのですが、Distanceという概念を教えていただきました。つまりMTでサジェストされた結果と最終のエディットの結果を比較し、そのDistanceを独自のアルゴリズムで計算して、あるしきい値以上であればそのプロジェクトはMTには向かない、という判定を行うということでした。同じアルゴリズムは使用できませんが、デプロでもクライアント様のほうで機械翻訳エンジンの適用を行った場合、差分を取って、どの程度の変更があったのかを確認し、あまりにもひどい場合は翻訳者にCompensationを行い、クライアント様へもクレームを出しています。

もう一つ、MTを使ったPremium(高)品質の翻訳案件とMTを使って早く、安く翻訳を行う案件では、初期工程は同じでもプロジェクトとしての質が全く異なるということです。この点をお客様ときちんと交渉することが大切ということでした。

2015年には、当時SDLで提供していたBeGlobalのサブスクリプションを開始しました。長年の友人であり、協力会社であるドイツのTranscript社からエンジニアを招き、実際のワークフローを確立するためのアドバイスをもらいました。
2016年、GoogleがNMTサービスを開始。機械翻訳の品質が一気に上がり、通常使用する分には、遜色のないくらいの品質が提供されるようになりました。

これを踏まえて2017年、実際にお客様に機械翻訳のサービスを提供し始めました。

2018年、プロの翻訳者を介さない「MT Adjusted」というサービスの提供を開始しました。
MT Adjustedサービスは通常のMT案件とは異なる考え方からはじまっています。多くの方はどのエンジンを使えば品質の良いサジェッションが出るのだろう、ということを気にされると思いますが、弊社では、サジェストされた翻訳そのものを評価するのではなく、サジェストされた翻訳をいかに各プロジェクトに合わせて置き換えることができるか、というところに重きを置きました。つまり出力品質自体は徐々に良くなっていくだろうから、出力されたものを加工する方に注力しよう、ということです。

翻訳をするときにスタイルや用語集を確認することが大変です。この部分を先にMTの出力に対し、処理してしまうんです。また、日本語の場合、タグによる分断のために訳語がおかしくなってしまいます。
以下の例をご覧ください。
Raw Output (MTエンジンから吐き出されたそのままの翻訳)

この1文が左のように2文に分かれてしまっています。

 

 

これをMT Adjustedで処理すると

 

ちゃんと1文で処理されます。この場合は”check”が「確認」でいいかどうか判断するだけです。OKな場合、Distanceはゼロです。

すべてを後処理で行うというわけではなく、先に用語集がある場合は、MTエンジンに登録してしまいます。たとえば、日本語の場合、User interfaceという言葉だけでもいく通りものいい方があります。ユーザ・インタフェース、ユーザ・インターフェイス、ユーザーインターフェイス、ユーザー インターフェイスなど。
MT処理のみでは、これらの用語は適当に出てきますが、スタイルはクライアント別に決まっているはずなので、MT Adjustedではこれを事前に入れ込んでしまうか、MTの出力後、パターン別に一気に置き換えます。
翻訳済みのUser Interfaceについては、UIのファイルとCATツールのタグ番号を照合して正しいUIに置き換えます。UIにすでに複数訳がある場合やタグでマーキングされていない場合などは、完璧に置き換え可能というわけにはいきませんが、上手くいかないところはその後のファイル処理担当者(翻訳者、またはMT処理担当者)が修正を行います。

同じエラーが頻出している場合は、そのエラーをエンジニアに報告し、次回の処理までに提案できる解決策がある場合は、その解決策をインプリします。以下のようなイメージです。

 

 

 

 

 

 

MT Adjusted処理した後は、クライアント様との事前交渉に沿って、最終品質を決めていきます。
たとえば、MT Adjusted処理後、
1) 翻訳者にFull Post Editを依頼し、最終品質はHuman Translationと同じPremium品質の翻訳をご提供する。
2) 「翻訳者ではない」担当者が確認を行い、最終納品まで持ってもっていく。

上記2)の処理の弱点は、翻訳者を介していないため、「正確」ではありません。本来翻訳者がPost Editして間違ったMTのサジェッションを修正するステップをスキップしていますので、最終のアウトプットは「正確ではない」翻訳である可能性があります。

そのため、MT Adjustedのみの処理は以下の様な条件があてはまるお客様にお勧めしたいサービスです。
1. 大量のコンテンツをMT処理したいが、Raw MT(後処理を全くしないMT出力)よりもう少しいい品質が欲しい。
2. 日本語を読んで、おかしいと思ったときに読者は対応する英語のコンテンツを参照できる。
3. 品質よりもコストとスピードを重視する。
4. 一度MT Adjustedのみで処理を行ったプロジェクトを、Premium品質に戻すことは容易ではない。最初からHuman Translationで処理した場合よりもコストがかかる場合がある(実際にそうなったプロジェクトがありました)。

実際にMT Adjustedのみを採用されたクライアント様からは「非常に満足している」というコメントを頂いており、更新についても対応させていただいております。
またMT Adjusted処理後にPost Editに対応いただいた翻訳者様からは、「今まで処理した中で一番の品質」「生産性は確実に上がっており、処理単価に見合っている」「通常はMT案件は断っているが、このMTであれば、今後も受注したい」という声を頂いております。

ドキュメントがバージョンアップされたときはどうするのか、というご質問については、以下の図をご参照ください。

 

 

 

1度目にMT Adjusted処理したコンテンツは次回アップデートで英語が変わらない場合、そのまま前回の訳が適用されます。追加/変更があったコンテンツについてのみ、最初からMT Adjusted処理を行います。さらに、前回からMT Adjustedのシステムに追加されたエラーのFixは前回のコンテンツにも適用されます。そのため、バージョンアップを重ねるたびに品質が良くなっていきます。

機械翻訳については、色々な考え方があると思いますが、「機械翻訳後の出力をできるだけ良くする」ということよりも、むしろ「Post Editしやすいような機械翻訳の出力」を目指し、「後の出力を先にプログラムでEditしてしまおう」という考え方に基づくものです。ご興味がある方は是非一度ご相談ください。