sto cercando un parser per wikipedia, ho i dump di wiki nel db locale e
ovvimente i vorrei leggere e manipolare. ovvimente non ho ne tempo ne
voglia di crearmi un parser mio anhce perchè a sentire in giro è
parecchio complesso e rigido.
Qualche suggerimento?
su rubyforge ho visto che ci son due progetti rails/wikipedia però non
hanno rilasciato alcun file.
su rubyforge ho visto che ci son due progetti rails/wikipedia però non
hanno rilasciato alcun file.
Ma allora ci arrivi! A rubyforge dico. Ma allora sono io???
Scusami per l’OT…
mmm ieri andava oggi nn ho provato sinceramente.
magari prova se non l’hai ancora fatto ad oggiornare firefox(nella
speranza che lo usi già ) nell’ ultima settimana la vecchia versione mi
dava un sacco di problemi
Firefox? Ma “gem update” si connette da sé e le due cose non
c’entrano.
Io manco lo pingo, rubyforge.
Mi sa che ho dei guai col DNS o una roba così. Che palle!
stb wrote:
david wrote:
su rubyforge ho visto che ci son due progetti rails/wikipedia però non
hanno rilasciato alcun file.
Ma allora ci arrivi! A rubyforge dico. Ma allora sono io???
Scusami per l’OT…
mmm ieri andava oggi nn ho provato sinceramente.
magari prova se non l’hai ancora fatto ad oggiornare firefox(nella
speranza che lo usi già) nell’ ultima settimana la vecchia versione mi
dava un sacco di problemi
ottima notizia, spero solo che non sia un delirio fare il parser.
cmq per quanto riguarda le API non ho ben capito a cosa ti riferisci, fa
le
query direttamente a wikipedia o ai dump in locale?
chiedo poichè l’ inoltre di query a wikipedia mi sembra una scelta
pessima
visto che andrebbe a carico dei server di wikipedia e visto che è tutto
gratis e sena pubblicità forse non è il caso di caricargli i server
Saluti Andrea
PS: per la conversazione di ruby forge spostatevi su quella grazie
----- Original Message -----
From: “Gendag” [email protected]
To: [email protected]
Sent: Thursday, November 09, 2006 3:56 PM
Subject: Re: [ruby-it] parser wikipedia
stb wrote:
Ciao,
sto cercando un parser per wikipedia, ho i dump di wiki nel db locale e
ovvimente i vorrei leggere e manipolare. ovvimente non ho ne tempo ne
voglia di crearmi un parser mio anhce perchè a sentire in giro è
parecchio complesso e rigido.
Che guarda a caso mostra come scrivere un parser di pagine Wikipedia
usando Hpricot!
Penso possa esserti di aiuto
Altra cosa: leggendo i commenti all’articolo ho scoperto
che esiste una API per interrogare Wikipedia, cosi puoi evitare di fare
il parsing (“scraping”) delle pagine html:
ottima notizia, spero solo che non sia un delirio fare il parser.
Il piu’ e’ entrare nella mentalita’ di Hpricot, dopodiche’ non dovresti
avere molti problemi. Purtroppo la documentazione e’ un po’ scarsa,
comunque dai un occhio anche alla homepage: http://code.whytheluckystiff.net/hpricot/
cmq per quanto riguarda le API non ho ben capito a cosa ti riferisci, fa
le query direttamente a wikipedia o ai dump in locale?
No, fa query direttamente a wikipedia.
chiedo poichè l’ inoltre di query a wikipedia mi sembra una scelta
pessima visto che andrebbe a carico dei server di wikipedia e visto che
è tutto gratis e sena pubblicità forse non è il caso di caricargli i server
Si, hai ragione, dipende pero’ dal numero di query che devi fare, se
sono poche non penso ci siano grandi problemi, anche perche’ se fornisco
un API per il pubblico vuol dire che vogliono fornire anche questo
genere di servizio.
E’ chiaro che se il numero di query e’ molto elevato o le interrogazioni
sono frequenti, forse conviene fare il parsing dalle pagine locali che
hai scaricato.
che spettacolo, due righe di codice e ho il parser perfettamente
funzionate
davvero da non credere.
ancora grazie
----- Original Message -----
From: “Gendag” [email protected]
To: [email protected]
Sent: Thursday, November 09, 2006 3:56 PM
Subject: Re: [ruby-it] parser wikipedia
stb wrote:
Ciao,
sto cercando un parser per wikipedia, ho i dump di wiki nel db locale e
ovvimente i vorrei leggere e manipolare. ovvimente non ho ne tempo ne
voglia di crearmi un parser mio anhce perchè a sentire in giro è
parecchio complesso e rigido.
Che guarda a caso mostra come scrivere un parser di pagine Wikipedia
usando Hpricot!
Penso possa esserti di aiuto
Altra cosa: leggendo i commenti all’articolo ho scoperto
che esiste una API per interrogare Wikipedia, cosi puoi evitare di fare
il parsing (“scraping”) delle pagine html:
sto cercando un parser per wikipedia, ho i dump di wiki nel db locale e
ovvimente i vorrei leggere e manipolare. ovvimente non ho ne tempo ne
voglia di crearmi un parser mio anhce perchè a sentire in giro è
parecchio complesso e rigido.
Che guarda a caso mostra come scrivere un parser di pagine Wikipedia
usando Hpricot!
Penso possa esserti di aiuto
Altra cosa: leggendo i commenti all’articolo ho scoperto
che esiste una API per interrogare Wikipedia, cosi puoi evitare di fare
il parsing (“scraping”) delle pagine html: