pdftohtml で日本語を
PDFをプログラムから検索できるようにしたいとおもった。
porticus で pdftohtml をインストールした。
$ pdftohtml -c -euc UTF-8 foo.pdf
としたが、
Error: Unknown character collection 'Adobe-Japan1'
とでるし、変換結果も変だった。
xpdf-japanes も install したが、やはり同じ。
しかし、
$ cp /opt/local/var/macports/software/xpdf-japanese/2004-jul-27_0+autoactivate/opt/local/share/xpdf/xpdf-japanese/add-to-xpdfrc ~/.xpdfrc
としてから、pdftohtml を実行したら、うまくできた。
http://www.oreilly.co.jp/editors/archives/000094.html
にある 『Binary Hacks』サンプルPDF の変換結果を示そう。
この html に対して、ferret + ruby で検索させようと思っている。
$ pdftohtml -help
pdftohtml version 0.40 http://pdftohtml.sourceforge.net/, based on Xpdf version 3.01
Copyright 1999-2003 Gueorgui Ovtcharov and Rainer Dorsch
Copyright 1996-2005 Glyph & Cog, LLC
Usage: pdftohtml [options] <PDF-file> [<html-file> <xml-file>]
-f <int> : first page to convert
-l <int> : last page to convert
-q : don't print any messages or errors
-h : print usage information
-help : print usage information
-p : exchange .pdf links by .html
-c : generate complex document
-i : ignore images
-noframes : generate no frames
-stdout : use standard output
-zoom <fp> : zoom the pdf document (default 1.5)
-xml : output for XML post-processing
-hidden : output hidden text
-enc <string> : output text encoding name
-dev <string> : output device name for Ghostscript (png16m, jpeg etc)
-v : print copyright and version info
-opw <string> : owner password (for encrypted files)
-upw <string> : user password (for encrypted files)
標準出力へ xml 形式で出力もできるから、 パイプ処理も可能だな。
« ピックアップ:イイ女No.1 天海祐希, 小学校から『ぼくらの七日間戦争』が撤去? etc... | トップページ | マスクを買った »
トラックバック
この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/184434/45027821
この記事へのトラックバック一覧です: pdftohtml で日本語を:
» MacOSX(Snow Leopard)でPDFからテキストを抽出する [firegoby]
まずはじめに
PDFからテキストを抽出するには、pdftotextというコマンドをインストールする必要がある。
pdftotextをインストールするには、MacPortsが簡単なのであらかじめMacPortsをインストールすること。
MacPortsのインストールは以下のような手順で。
Snow LeopardのインストールDVDからXcodeをインストール
Snow LeopardのインストールDVDからX11をインストール
MacPortsの最新版を入手してインストール
pdftotextの... [続きを読む]
« ピックアップ:イイ女No.1 天海祐希, 小学校から『ぼくらの七日間戦争』が撤去? etc... | トップページ | マスクを買った »












コメント