image

  • フォト Amazonギフト券
    ※この時計の時刻は、閲覧しているパソコンのものであり、必ずしも正確な時間とは限りません

検索

最近のトラックバック

無料ブログはココログ

« ピックアップ:イイ女No.1 天海祐希, 小学校から『ぼくらの七日間戦争』が撤去? etc... | トップページ | マスクを買った »

2009-05-16

pdftohtml で日本語を

PDFをプログラムから検索できるようにしたいとおもった。
porticus で pdftohtml をインストールした。
$ pdftohtml -c -euc UTF-8 foo.pdf
としたが、
Error: Unknown character collection 'Adobe-Japan1'
とでるし、変換結果も変だった。
xpdf-japanes も install  したが、やはり同じ。
しかし、
$ cp /opt/local/var/macports/software/xpdf-japanese/2004-jul-27_0+autoactivate/opt/local/share/xpdf/xpdf-japanese/add-to-xpdfrc ~/.xpdfrc
としてから、pdftohtml を実行したら、うまくできた。

http://www.oreilly.co.jp/editors/archives/000094.html
にある 『Binary Hacks』サンプルPDF の変換結果を示そう。

オリジナル PDF を MacOS のプレビューで。
2009051601

pdftohtml 結果を firefox で。
2009051602

この html に対して、ferret + ruby で検索させようと思っている。

$ pdftohtml -help
pdftohtml version 0.40 http://pdftohtml.sourceforge.net/, based on Xpdf version 3.01
Copyright 1999-2003 Gueorgui Ovtcharov and Rainer Dorsch
Copyright 1996-2005 Glyph & Cog, LLC

Usage: pdftohtml [options] <PDF-file> [<html-file> <xml-file>]
  -f <int>          : first page to convert
  -l <int>          : last page to convert
  -q                : don't print any messages or errors
  -h                : print usage information
  -help             : print usage information
  -p                : exchange .pdf links by .html
  -c                : generate complex document
  -i                : ignore images
  -noframes         : generate no frames
  -stdout           : use standard output
  -zoom <fp>        : zoom the pdf document (default 1.5)
  -xml              : output for XML post-processing
  -hidden           : output hidden text
  -enc <string>     : output text encoding name
  -dev <string>     : output device name for Ghostscript (png16m, jpeg etc)
  -v                : print copyright and version info
  -opw <string>     : owner password (for encrypted files)
  -upw <string>     : user password (for encrypted files)

標準出力へ xml 形式で出力もできるから、 パイプ処理も可能だな。

« ピックアップ:イイ女No.1 天海祐希, 小学校から『ぼくらの七日間戦争』が撤去? etc... | トップページ | マスクを買った »

コメント

コメントを書く

(ウェブ上には掲載しません)

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/184434/45027821

この記事へのトラックバック一覧です: pdftohtml で日本語を:

» MacOSX(Snow Leopard)でPDFからテキストを抽出する [firegoby]
まずはじめに PDFからテキストを抽出するには、pdftotextというコマンドをインストールする必要がある。 pdftotextをインストールするには、MacPortsが簡単なのであらかじめMacPortsをインストールすること。 MacPortsのインストールは以下のような手順で。 Snow LeopardのインストールDVDからXcodeをインストール Snow LeopardのインストールDVDからX11をインストール MacPortsの最新版を入手してインストール pdftotextの... [続きを読む]

« ピックアップ:イイ女No.1 天海祐希, 小学校から『ぼくらの七日間戦争』が撤去? etc... | トップページ | マスクを買った »

mokuji

2013年12月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31        

google

  • twitter
  • __
  • _
    Googleボットチェッカー

合わせて読む

  • 合わせて読む
    フィードメーター - katoy: cocolog あわせて読みたい

リンク