Arrangement sniffer
Snifferen vår kan deles i tre:
- Web Crawler – Bør være mulig å gjøre litt reg ex på URL, og en limit på antall steg ut i fra en seed URL
- HTML paser – få inn tittel, body, dato, evt. kategori, intro. Her må vi ta høyde for forskjellige språk/locale.
- Import - Importrutine til TromsøBy
De to første delene har Stian rimelige grei kontroll på. Importmodulen må skrives helt på nytt. Har samlet noen gode web spider linker under til inspirasjon, mulig vi kan bruke en av dem. Sjekk spesielt første link, en web crawler/parser fra Compaq som virker veldig bra.
http://www.research.compaq.com/SRC/WebL/index.html
http://crawler.archive.org/faq.html
http://java-source.net/open-source/crawlers
http://sourceforge.net/search/?...words=web+spider