【快適！Tools】英語のPDFをブラウザで自動翻訳してみよう（英語資料の翻訳）

2021年8月3日
2022年1月27日
統合開発環境（IDE), INSIDE TECH, Python, プログラミング, Windows

Windows

すけろく

うーん。
これをコピーして、Google自動翻訳のサイトに張り付けて。。。
ぬうぉぉぉー！！　改行が翻訳の邪魔をしておる～（泣）

げんろく

どうした。
そんなに慌てて。ゆっくり落ち着いてやればできるぞ！
落ち着け！

すけろく

時間がないのだ！
明日までにざっくりとこの英論文の内容を頭に入れないと。。。
しかし、ボリュームがありすぎる～（泣）

げんろく

仕方ないのう。
そんなもの、Pythonを使って組んでしまえばよいではないか。
ほれ、ちょちょいのチョイだ。

英語の苦手な人、寄ってらっしゃい。見てらっしゃい。

最新のセミナー資料や技術論文って、すべて英語。。。ですよね。
そのまま読んでもいいのですが、日本人なので日本語よりも読むのに時間がかかります。。

ざっくりと内容掴んで自分の欲しいものかを判断したいだけなのに。

朗報です。

自分もPDFを翻訳する場合は、文章の一小節をコピーして、改行消して、Google翻訳で翻訳して。とやっていました。
改行コードをなくしたりするツールやサイトはあるものの、劇的に生産性を上げてくれるようなものがないのが現実でした。

インターネット上にある数あるセミナー資料や技術論文を参考にする際に一番重要なのは、「今、自分が欲している情報か」を概要的に掴むことですよね。

概要をつかむのに1時間～数時間かけて翻訳しても、自分の求めているものでなかったら・・・時間がもったいないです。

色々、方法を試しましたが、判読性がそこそこあって、一気に翻訳できる方法を確立したので、実際にツール化してみました。

皆さんにもご紹介したいと思います。

ツールはGitHubにて公開しています。

GitHub

GitHub - karakuri-musha/HtmlConv4PDF: This tool is a tool that extracts English text from a PDF document and outputs it to a html file.

This tool is a tool that extracts English text from a PDF do…

【合わせて読みたい】、Windows10環境を快適にするための人気記事も、ぜひご覧ください！

最近のスマホやカメラは画質が良くなってきたこともあり、すぐにストレージがいっぱいになることも多くなりましたよね。動画も増えてきて、思い出を編集しよう！ってパソコンで動画編集するとさらに容量が増え、しかも動画編集アプリが遅い！ってこと[…]

1 PDFから翻訳するのって骨が折れる
2 かなりリッチなPyMuPDF
3 実際にプログラムを組んでみよう
4 ツールの使い方
- 4.1 ツールの実行方法
5 編集後記

スポンサー広告

PDFから翻訳するのって骨が折れる

PDFの文章をコピーして翻訳サイトなどに張り付ける場合、一番めんどくさいのがコピーしたテキストに含まれる「改行」ですよね。
文章の途中で「改行」が入れられているので、翻訳サイトでそのまま翻訳すると変な日本語になることが多いです。

世の中には、テキストに含まれる改行を消してくれるツールやサイトがあり、これまでは重宝してきましたが、PDFから対象範囲をコピペして、翻訳していくのは時間のかかる作業でした。。

一方でブラウザの翻訳機能は向上していて、英語のサイトを見たときも自動翻訳機能を使えば、そこそこ読める内容になり、時間もとられません。

そこで、骨の折れるPDFの翻訳作業を効率化するため、以下の処理を実行するツールを作りました。

処理の内容としては次の通りです。

英文のPDFから画像やテキスト部分を抜き出す。
ブラウザで見ることができるhtmlかhxmlに変換して保存する

PDFは、ページ上に複数のボックスが配置されていて、ボックスの中に画像やテキストが格納されています。
ボックスには位置情報が属性として与えられていて、PDFとして見た目のよいものに仕上がっています。

ボックスは、変換される際に定義された順番に処理されるので、その順番を含めて、アウトプットできれば、順序性のある文書に変換できます。
（ただし、ボックス変換順序があべこべの場合もあるので、一概には言えません。）

何とか、上記のボックス毎のテキストを抜き出して、ページ単位で変換したものを1つのファイルにまとめるためのPythonライブラリはないかと探しました。そこで見つけたのが「PyMuPDF」です。

かなりリッチなPyMuPDF

今回ご紹介するライブラリは、以下のサイトで公開されています。
使い方のチュートリアルのようなサイトも作られていて非常に親切でした。

PyPI

PyMuPDF

A high performance Python library for data extraction, analy…

マニュアルサイトはこちら

Python3.6からPython3.9に対応しているとのことです。
詳しくは、リンクからGitHubページにてReadme.mdをご覧ください
ライブラリのインストールは以下のコマンドで行うことができます。

$ pip3 install PyMuPDF

少し注意が必要なのは、プログラムのインポート時の呼び出し方です。
以下のとおり呼び出します。

$ import fitz

ライブラリ名と異なる名前でインポートする必要があります。注意しましょう

スポンサー広告

実際にプログラムを組んでみよう

プログラム自体は以下の構成で作りました。

プログラムの実行カレントパス（起動された場所）を検出する
ログファイルを格納するフォルダをカレントパス配下に「Log」として作成する
実行環境の取得と判定（今回はWindows10のみで実行するように制限）
実行時に指定されたPDFを開く
画像やテキストをPDFからxhmlとして抽出する
実行カレントフォルダの配下に「result_file」フォルダを作成し、抽出結果を「output.html」ファイルとして保存
（※ファイル出力は追記モードで出力する。出力ファイルをそのままに他のPDFも実行するとファイルに追記される）

ツールはGitHubにて公開しています。

GitHub

GitHub - karakuri-musha/HtmlConv4PDF: This tool is a tool that extracts English text from a PDF document and outputs it to a html file.

This tool is a tool that extracts English text from a PDF do…

ツールの使い方

ツールは、Anacondaで以下の環境を作り、追加ライブラリをインストールした状態で動作確認しています。

カテゴリ	環境
Python	Python 3.8.10（conda）
OS	Microsoft Windows 10 Home

追加ライブラリは以下を入れています。

追加ライブラリ名	URL
PyMuPDF	https://github.com/pymupdf/PyMuPDF https://pymupdf.readthedocs.io/en/latest/

ツールの実行方法

ツールの実行方法について、ご紹介します。

ツール格納用のフォルダをWindows10上に作成します。(例はC:\ドライブにToolsフォルダを作成）

C:\User\User> mkdir Tools
C:\User\User> cd Tools

２

ブラウザで以下のGitHubにアクセスします。

GitHub

GitHub - karakuri-musha/HtmlConv4PDF: This tool is a tool that extracts English text from a PDF document and outputs it to a html file.

This tool is a tool that extracts English text from a PDF do…

３

「Code」ボタンを押して、「Download zip」を押します。

４

ダウンロードされたファイルを１で作ったフォルダに格納して展開します。

５

ツール格納用フォルダに変換するPDFをコピーします。

６

コマンドラインで、Pythonの実行環境を起動します。
＊Windows10にインストールしたPythonの環境起動方法にしたがってください。
＊Anaconda の場合、一般的に以下のコマンドでPythonの環境を起動できます。

C:\User\User\Tools> conda activate "PythonEnvName"
(PythonEnvName)C:\User\User\Tools>

７

前提となるライブラリをインストールします。

(PythonEnvName)C:\User\User\Tools> pip3 install PyMuPDF

８

ツールを実行します。
（実行例：変換するPDF [ target.pdf ] 出力先ファイル名 [ output.html ）

(PythonEnvName)C:\User\User\Tools> python HtmlConv4PDF.py -f target.pdf -o output.html

９

実行後、以下のフォルダが作成され、処理結果が格納されます。

Log 　　　　→実行結果ログが格納されます。 
result_files　→実行結果（返還後のHtml）が格納されます。

編集後記

いかがだったでしょうか。

意外とめんどくさいPDF文書の日本語翻訳も、このツールならブラウザの自動翻訳機能を使って概要を読むことができます。

プログラムや電子工作をしていると文書はほとんど英語で、まあまあ読むことはできるのですが、日本語変換して確認する場合に比べやはり効率的ではありません。

Windows10で動くPythonプログラムの第1弾ということで、オフィスでも使える内容になっているのではないでしょうか。

皆さんもぜひ使ってみてください。

【合わせて読みたい】、Windows10環境を快適にするための人気記事も、ぜひご覧ください！

前の記事へ

【Raspberry Pi 】時々、連絡が途絶える貴方へ（Wi-Fiの通信監視と自動復旧！）
次の記事へ

【Jetson Nano】まずやること。OSの書き込みと初期設定までを紹介！

【快適！Tools】英語のPDFをブラウザで自動翻訳してみよう（英語資料の翻訳）

PDFから翻訳するのって骨が折れる

かなりリッチなPyMuPDF

実際にプログラムを組んでみよう

ツールの使い方

ツールの実行方法

編集後記

【Raspberry Pi 】時々、連絡が途絶える貴方へ（Wi-Fiの通信監視と自動復旧！）

【Jetson Nano】まずやること。OSの書き込みと初期設定までを紹介！