Tromsøby Utvikling

Blogg for utviklere av nettstedet tromsoby.no. Her vil du finne hvilke planer og ideeer vi har for fremtiden med dette nettstedet, samt info om ting som vi liker ved webutvikling.

tirsdag, november 22, 2005

Arrangement sniffer

Noen tanker rundt snifferprogrammet til kalenderen vår. Kanskje vi skulle gjøre dette til et open source prosjekt?

Snifferen vår kan deles i tre:
  • Web Crawler – Bør være mulig å gjøre litt reg ex på URL, og en limit på antall steg ut i fra en seed URL
  • HTML paser – få inn tittel, body, dato, evt. kategori, intro. Her må vi ta høyde for forskjellige språk/locale.
  • Import - Importrutine til TromsøBy


De to første delene har Stian rimelige grei kontroll på. Importmodulen må skrives helt på nytt. Har samlet noen gode web spider linker under til inspirasjon, mulig vi kan bruke en av dem. Sjekk spesielt første link, en web crawler/parser fra Compaq som virker veldig bra.
http://www.research.compaq.com/SRC/WebL/index.html
http://crawler.archive.org/faq.html
http://java-source.net/open-source/crawlers
http://sourceforge.net/search/?...words=web+spider

1 Comments:

Legg inn en kommentar

<< Home