Scrapedfeeds.com

Wauw.. syndicatie is toch erg kewl aan het worden.

Zo scrape ik al tijden David Letterman’s top 10 in rss formaat
en ik zie op scrapedfeeds niet zoveel subscribers. Zit ik net mijn apache log door te nemen zie ik dat Livejournal deze feed oppikt en er zijn zo’n 20 subscribers… Kewl .. Scrapedfeeds wordt meer en meer gebruikt.

Gemiddels gebruik 31Mb per dag, zo’n 1GB per maand.
Scrapedfeeds.com draait als virtuele server op mijn Sun Qube3

Scrapedfeeds: Het Weerbericht

Zag via een remote sessie naar mijn machine thuis dat Joost om een ‘weerbericht’ rss feed vroeg. Erg actueel nu met al die sneeuwbuien (al zie ik hier in Amersfoort momenteel een heldere lucht met een lekker zonnetje).

KNMI ligt plat, Meteoconsult zuigt. Dan maar even bij Piet Paulusma kijken.
Zijn nieuwsbericht was makkelijk te scrapen in RSS vorm.
In testfase, want ik heb geen idee of het blijft werken. De feed kan zomaar breken als het niet in een standaard opmaak geplaatst wordt, maar dat zien we in de loop van de week wel.

Scrapedfeeds: ANP Feeds (NEW!!)

Vandaag gaan we afscheid nemen van de ANP/Novum feeds die te zien waren op scrapedfeeds via Compuserve.nl. Compuserve heeft een nieuwe layout en zorgt er nu voor dat de de links niet meer werken.

Nieuws.nl heeft de Novum feed en die wordt al gescraped voor xml/rss
Omdat er teveel duplicates (headlines) waren heb ik gezocht naar een ‘zuivere’ ANP feed en gevonden op @home.

Dus: graag al je ANP / NOVUM nieuws feeds richting Compuserve verwijderen, alle URL’s zijn broken nu ivm wijziging van de pages @ compuserve.

Voor ANP feeds kan je nu alles pakken vanaf deze URL
Voor Novum feeds kun je de feeds van deze URL gebruiken
Met de nieuwe scrapes richting @home heb ik Novum en ANP nieuwsfeeds beter gescheiden.

Damn: ANP / Novum Feeds defect

Damn. Ik kom er net achter dat Compuserve haar webpagina’s veranderd heeft. Op ScrapedFeeds heb ik een aantal feeds beschikbaar met nieuws van ANP en Novum. Helaas werken de URL’s niet meer ;-(

De server genereerd een Error 500 op de request die de scraper stuurt.

Liefhebbers van de feeds: iemand een URL beschikbaar voor deze feeds die geen fouten genereren? (alles mbt *.asp exentsie op compuserve.nl is niet ok)
** ben in afwachting van Mike, om te horen of de scraper de server kan ‘foppen’. **