image

  • フォト Amazonギフト券
    ※この時計の時刻は、閲覧しているパソコンのものであり、必ずしも正確な時間とは限りません

検索

最近のトラックバック

無料ブログはココログ

« 「いのちの食べかた」を観た | トップページ | ピックアップ: Safariの最新バージョンは驚異的に速い, 仏像のひみつ, etc... »

2008-02-11

scrubyt で http://del.icio.us/ にアクセス(その2)

namespace, prefix 付きのデータを生成する場合、その namespace, prefix の値そのものにこだわらないなら、RSS として生成すれるのも良いかもしれない。

その場合次のようにすればよい。

require 'rss'
. . .
hash = bookmarks.to_hash
rss = RSS::Maker.make("1.0") do |maker|
  maker.channel.about = "http://example.com/index.rdf"
  maker.channel.title = "Example"
  maker.channel.description = "Example Site"
  maker.channel.link = "http://example.com/"

  hash.each { |ent|
    ent.each { |t, v|
      item = maker.items.new_item
      item.link = v
      item.title = t
    }
  }
end

実行結果例
$ ruby delisiourss.rb
/opt/local/lib/ruby/gems/1.8/gems/scrubyt-0.3.4/lib/scrubyt/core/scraping/filters/text_filter.rb:25: warning: don't put space before argument parentheses
http://del.icio.us/youichikato
<?xml version="1.0" encoding="UTF-8"?>
<rdf:RDF xmlns:image="http://web.resource.org/rss/1.0/modules/image/"
  xmlns:taxo="http://purl.org/rss/1.0/modules/taxonomy/"
  xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
  xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
  xmlns:dc="http://purl.org/dc/elements/1.1/"
  xmlns:content="http://purl.org/rss/1.0/modules/content/"
  xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/"
  xmlns="http://purl.org/rss/1.0/">
  <channel rdf:about="http://example.com/index.rdf">
    <title>Example</title>
    <link>http://example.com/</link>
    <description>Example Site</description>
    <items>
      <rdf:Seq>
        <rdf:li resource="http://www.ibm.com/developerworks/jp/linux/library/l-spider/index.html"/>
        <rdf:li resource="Linux で Web スパイダーをビルドする"/>
. . . 省略 . . .
        <rdf:li resource="Ruby の Jabber(XMPP) ライブラリ - 冬通りに消え行く制服ガールは、夢物語にリアルを求めない。 - subtech"/>
      </rdf:Seq>
    </items>
    <taxo:topics>
      <rdf:Bag/>
    </taxo:topics>
  </channel>
  <item rdf:about="http://www.ibm.com/developerworks/jp/linux/library/l-spider/index.html">
    <title>url</title>
    <link>http://www.ibm.com/developerworks/jp/linux/library/l-spider/index.html</link>
    <taxo:topics>
      <rdf:Bag/>
    </taxo:topics>
  </item>
  <item rdf:about="Linux で Web スパイダーをビルドする">
    <title>title</title>
    <link>Linux で Web スパイダーをビルドする</link>
    <taxo:topics>
      <rdf:Bag/>
    </taxo:topics>
  </item>
. . . 省略 . . .
  <item rdf:about="Ruby の Jabber(XMPP) ライブラリ - 冬通りに消え行く制服ガールは、夢物語にリアルを求めない。 - subtech">
    <title>title</title>
    <link>Ruby の Jabber(XMPP) ライブラリ - 冬通りに消え行く制服ガールは、夢物語にリアルを求めない。 - subtech</link>
    <taxo:topics>
      <rdf:Bag/>
    </taxo:topics>
  </item>
</rdf:RDF>

日本語もそのまま出力されている。
また、この出力結果では最初に URL が出力されてしまっているが、これは scrubyt 中の以下の場所での puts によるものだ。(debug 出力が残っている?)

extractor.rb line 120 付近 (scrubyt 0.3.4)

    def evaluate_extractor
      root_results = []
      current_page_count = 1
      catch :quit_next_page_loop do
        loop do
          url = get_current_doc_url #TODO need absolute address here 2/4
ここ ==>    puts url

« 「いのちの食べかた」を観た | トップページ | ピックアップ: Safariの最新バージョンは驚異的に速い, 仏像のひみつ, etc... »

コメント

コメントを書く

(ウェブ上には掲載しません)

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/184434/40082992

この記事へのトラックバック一覧です: scrubyt で http://del.icio.us/ にアクセス(その2):

« 「いのちの食べかた」を観た | トップページ | ピックアップ: Safariの最新バージョンは驚異的に速い, 仏像のひみつ, etc... »

mokuji

2013年12月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31        

google

  • twitter
  • __
  • _
    Googleボットチェッカー

合わせて読む

  • 合わせて読む
    フィードメーター - katoy: cocolog あわせて読みたい

リンク