image

  • フォト Amazonギフト券
    ※この時計の時刻は、閲覧しているパソコンのものであり、必ずしも正確な時間とは限りません

検索

最近のトラックバック

無料ブログはココログ

« 2009年5月15日 | トップページ | 2009年5月17日 »

2009年5月16日

2009-05-16

pdftohtml で日本語を

PDFをプログラムから検索できるようにしたいとおもった。
porticus で pdftohtml をインストールした。
$ pdftohtml -c -euc UTF-8 foo.pdf
としたが、
Error: Unknown character collection 'Adobe-Japan1'
とでるし、変換結果も変だった。
xpdf-japanes も install  したが、やはり同じ。
しかし、
$ cp /opt/local/var/macports/software/xpdf-japanese/2004-jul-27_0+autoactivate/opt/local/share/xpdf/xpdf-japanese/add-to-xpdfrc ~/.xpdfrc
としてから、pdftohtml を実行したら、うまくできた。

http://www.oreilly.co.jp/editors/archives/000094.html
にある 『Binary Hacks』サンプルPDF の変換結果を示そう。

オリジナル PDF を MacOS のプレビューで。
2009051601

pdftohtml 結果を firefox で。
2009051602

この html に対して、ferret + ruby で検索させようと思っている。

$ pdftohtml -help
pdftohtml version 0.40 http://pdftohtml.sourceforge.net/, based on Xpdf version 3.01
Copyright 1999-2003 Gueorgui Ovtcharov and Rainer Dorsch
Copyright 1996-2005 Glyph & Cog, LLC

Usage: pdftohtml [options] <PDF-file> [<html-file> <xml-file>]
  -f <int>          : first page to convert
  -l <int>          : last page to convert
  -q                : don't print any messages or errors
  -h                : print usage information
  -help             : print usage information
  -p                : exchange .pdf links by .html
  -c                : generate complex document
  -i                : ignore images
  -noframes         : generate no frames
  -stdout           : use standard output
  -zoom <fp>        : zoom the pdf document (default 1.5)
  -xml              : output for XML post-processing
  -hidden           : output hidden text
  -enc <string>     : output text encoding name
  -dev <string>     : output device name for Ghostscript (png16m, jpeg etc)
  -v                : print copyright and version info
  -opw <string>     : owner password (for encrypted files)
  -upw <string>     : user password (for encrypted files)

標準出力へ xml 形式で出力もできるから、 パイプ処理も可能だな。

ピックアップ:イイ女No.1 天海祐希, 小学校から『ぼくらの七日間戦争』が撤去? etc...

- http://news.cocolog-nifty.com/cs/article/detail/magazine-200905142012/1.htm?c=app.5
> イイ女No.1 天海祐希 ココログニュース:@nifty

- http://dailynews.yahoo.co.jp/fc/computer/security_and_encryption/
> セキュリティーと暗号化 - Yahoo!ニュース

- http://www.ideaxidea.com/archives/2009/05/gmail_origami.html
> PDFの型紙付き!リアルなGmail折り紙がすごいぞ - IDEA*IDEA ~ 百式管理人のライフハックブログ ~

- http://labs.unoh.net/2009/05/sinatra.html
> ウノウラボ Unoh Labs: Sinatra気に入った

- http://news2plus.blog123.fc2.com/blog-entry-544.html
> ニュース速報++ 環境省がえらいキャラクターを創造した・・・(e p a)アウアウ

- http://news.goo.ne.jp/article/globis/business/globis-20090504-05.html
> 平均年収1400万企業の理念とは(GLOBIS.JP) - goo ニュース

- http://d.hatena.ne.jp/kaerudayo/20090515#p2
>  小学校から『ぼくらの七日間戦争』が撤去されたそうだ

- http://slashdot.jp/science/article.pl?sid=09/05/15/0324226
> 「新型インフルエンザウィルスは人的ミスが起源」説登場、WHOが調査中 - スラッシュドット・ジャパン

- http://d.hatena.ne.jp/amachang/20090515/1242367278
> 「牧場メーカー」というものを作ってみた - IT戦記

- http://netafull.net/video/030525.html
> [N] 宅配寿司「銀のさら」のテレビCMがおかしすぎる

« 2009年5月15日 | トップページ | 2009年5月17日 »

mokuji

2013年12月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31        

google

  • twitter
  • __
  • _
    Googleボットチェッカー

合わせて読む

  • 合わせて読む
    フィードメーター - katoy: cocolog あわせて読みたい

リンク