/ / Finden des korrekten XPath für eine Tabelle ohne ID - html, r, xpath

Finden des korrekten XPath für eine Tabelle ohne ID - html, r, xpath

Ich folge einem Tutorial über R-Blogger Verwenden Sie rvest, um Tisch zu kratzen. Ich denke, ich habe den falschen Spalten-ID-Wert, aber ich verstehe nicht, wie ich den richtigen Wert ermitteln kann. Kann jemand erklären, welchen Wert ich verwenden soll und warum?

@Hrbrmstr weist darauf hin, dass dies gegen die WSJ-Nutzungsbedingungen verstößt, die Antwort ist jedoch für diejenigen hilfreich, die ein ähnliches Problem mit einer anderen Webseite haben.

library("rvest")
interest<-url("http://online.wsj.com/mdc/public/page/2_3020-libor.html")%>%read_html()%>%html_nodes(xpath="//*[@id="column0"]/table[1]") %>% html_table()

Die Struktur gibt eine leere Liste zurück.

Antworten:

1 für die Antwort № 1

Für mich ist es ein Versuch und Irrtum, die richtige Tabelle zu finden. In diesem Fall ist die dritte Tabelle das, was Sie suchen:

library("rvest")
page<-url("http://online.wsj.com/mdc/public/page/2_3020-libor.html")%>%read_html()
tables<-html_nodes(page, "table")
html_table(tables[3])

Anstatt den xpath zu verwenden, analysiere ich einfach das "table" -Tag und schaue mir jeden Tisch an, um den richtigen zu finden. Der Piping-Befehl ist praktisch, macht es jedoch schwieriger zu debuggen, wenn etwas schief geht.