これをコピーして、Google自動翻訳のサイトに張り付けて。。。
ぬうぉぉぉー!! 改行が翻訳の邪魔をしておる~(泣)
そんなに慌てて。ゆっくり落ち着いてやればできるぞ!
落ち着け!
明日までにざっくりとこの英論文の内容を頭に入れないと。。。
しかし、ボリュームがありすぎる~(泣)
そんなもの、Pythonを使って組んでしまえばよいではないか。
ほれ、ちょちょいのチョイだ。
そのまま読んでもいいのですが、日本人なので日本語よりも読むのに時間がかかります。。
改行コードをなくしたりするツールやサイトはあるものの、劇的に生産性を上げてくれるようなものがないのが現実でした。
ツールはGitHubにて公開しています。
This tool is a tool that extracts English text from a PDF do…
最近のスマホやカメラは画質が良くなってきたこともあり、すぐにストレージがいっぱいになることも多くなりましたよね。 動画も増えてきて、思い出を編集しよう!ってパソコンで動画編集するとさらに容量が増え、しかも動画編集アプリが遅い!ってこと[…]
PDFから翻訳するのって骨が折れる
文章の途中で「改行」が入れられているので、翻訳サイトでそのまま翻訳すると変な日本語になることが多いです。
- 英文のPDFから画像やテキスト部分を抜き出す。
- ブラウザで見ることができるhtmlかhxmlに変換して保存する
PDFは、ページ上に複数のボックスが配置されていて、ボックスの中に画像やテキストが格納されています。
ボックスには位置情報が属性として与えられていて、PDFとして見た目のよいものに仕上がっています。
ボックスは、変換される際に定義された順番に処理されるので、その順番を含めて、アウトプットできれば、順序性のある文書に変換できます。
(ただし、ボックス変換順序があべこべの場合もあるので、一概には言えません。)
何とか、上記のボックス毎のテキストを抜き出して、ページ単位で変換したものを1つのファイルにまとめるためのPythonライブラリはないかと探しました。そこで見つけたのが「PyMuPDF」です。
かなりリッチなPyMuPDF
使い方のチュートリアルのようなサイトも作られていて非常に親切でした。
詳しくは、リンクからGitHubページにてReadme.mdをご覧ください
ライブラリのインストールは以下のコマンドで行うことができます。
$ pip3 install PyMuPDF
以下のとおり呼び出します。
$ import fitz
実際にプログラムを組んでみよう
- プログラムの実行カレントパス(起動された場所)を検出する
- ログファイルを格納するフォルダをカレントパス配下に「Log」として作成する
- 実行環境の取得と判定(今回はWindows10のみで実行するように制限)
- 実行時に指定されたPDFを開く
- 画像やテキストをPDFからxhmlとして抽出する
- 実行カレントフォルダの配下に「result_file」フォルダを作成し、抽出結果を「output.html」ファイルとして保存
(※ファイル出力は追記モードで出力する。出力ファイルをそのままに他のPDFも実行するとファイルに追記される)
ツールはGitHubにて公開しています。
This tool is a tool that extracts English text from a PDF do…
ツールの使い方
カテゴリ | 環境 |
Python | Python 3.8.10(conda) |
OS |
Microsoft Windows 10 Home
|
追加ライブラリは以下を入れています。
追加ライブラリ名 | URL |
PyMuPDF |
https://github.com/pymupdf/PyMuPDF |
ツールの実行方法
ツールの実行方法について、ご紹介します。
1
ツール格納用のフォルダをWindows10上に作成します。(例はC:\ドライブにToolsフォルダを作成)
C:\User\User> mkdir Tools
C:\User\User> cd Tools
2
ブラウザで以下のGitHubにアクセスします。
This tool is a tool that extracts English text from a PDF do…
3
「Code」ボタンを押して、「Download zip」を押します。
4
ダウンロードされたファイルを1で作ったフォルダに格納して展開します。
5
ツール格納用フォルダに変換するPDFをコピーします。
6
コマンドラインで、Pythonの実行環境を起動します。
*Windows10にインストールしたPythonの環境起動方法にしたがってください。
*Anaconda の場合、一般的に以下のコマンドでPythonの環境を起動できます。
C:\User\User\Tools> conda activate "PythonEnvName"
(PythonEnvName)C:\User\User\Tools>
7
前提となるライブラリをインストールします。
(PythonEnvName)C:\User\User\Tools> pip3 install PyMuPDF
8
ツールを実行します。
(実行例:変換するPDF [ target.pdf ] 出力先ファイル名 [ output.html )
(PythonEnvName)C:\User\User\Tools> python HtmlConv4PDF.py -f target.pdf -o output.html
9
実行後、以下のフォルダが作成され、処理結果が格納されます。
Log →実行結果ログが格納されます。 result_files →実行結果(返還後のHtml)が格納されます。
編集後記
最近のスマホやカメラは画質が良くなってきたこともあり、すぐにストレージがいっぱいになることも多くなりましたよね。 動画も増えてきて、思い出を編集しよう!ってパソコンで動画編集するとさらに容量が増え、しかも動画編集アプリが遅い!ってこと[…]