onsdag den 13. maj 2009

Fra computerstøttet journalistik til it-genererede nyheder

Handout til Nordisk Arkiv – og Researchkonference 15. Maj 2009

Af Nils Mulvad, Kaas & Mulvad, nils.mulvad@kaasogmulvad.dk, web: www.kaasogmulvad.dk

Den danske avis Ekstra Bladet afslørede i maj 2008 en 53-årig politichef fra København som børnelokker. Politichefen havde med en sløret identitet på ungdomssitet Arto chattet med en 13-årig pige og ville mødes med hende, da Ekstra Bladet videofilmede ham, og han satte i løb. Tre andre mænd røg ligesom politichefen på forsiden af Ekstra Bladet i Arto-historien.
Undervejs spillede det en central rolle i dækningen at få tal på, hvor mange mænd i alderen 50-80 år, der havde en brugerprofil på Arto. Arto selv havde nogle tal, der så alt for lave ud, og derfor blev aldersprofiler og venne-profiler på mænd mellem 50 og 80 trukket ud via robot og analyseret i et databaseprogram, så Ekstra Bladet havde sine egne tal. De viste, at der var tale om langt flere, end Arto i første omgang havde fortalt.
På tilsvarende måder er robotter benyttet til at trække data ud fra en lang række offentlige og private databaser i forbindelse med journalistiske historier. I Danmark har Dicar siden 2004 og derefter Kaas & Mulvad benyttet robotter til at hente data til en stribe historier. Vi har bl.a. hentet data fra Statstidende, Skat, retslister fra de danske domstole, husdyrbrugsregistret, flere folketings- og kommunalvalg, norske skolekarakterer, landbrugsstøttedata fra en række lande, oplysninger om praktiserende læger, og vi har overvåget folketingspolitikernes afstemninger.
En robot kaldes også en screenscraper, webscraper eller webcrawler. Princippet er, at den udnytter en adgang via en søgeform til at tømme massive dele af indholdet i databasen bag. Søgeformen på nettet er som en brevsprække, der lader dig få et begrænset kig til herlighederne bag. Robotten benytter denne indgang til at støvsuge indholdet.

Metoderne
I Danmark bruger vi software fra Kapow Technologies, som er relativt enkelt at gå til. I dag findes det i en gratis version, OpenKapow, som nu er begyndt at blive brugt af journalister i Norge og Danmark. I USA er metoden med at samle data sammen via scraping kommet tidligere i gang, og her er den især baseret på regulær programmering frem for den danske robot-løsning.
Robotteknologien er nu udviklet så langt, at det er muligt at trække data ud af selv relativt håbløse pdf-dokumenter og tilsvarende. Det er muligt at sætte robotterne op til løbende at overvåge sider og opdatere egne databaser.
Metoderne inden for IT-genererede nyheder kan opdeles på denne måde:
• Skrabning af data fra nettet
• Opsætning af skrabere til at køre automatisk og gemme data i en database på en server
• Udtræk af data fra en server for at præsentere resultatet som tabeller, kort eller automatiske historier på nettet.
• Interaktive grafikker baseret på databaser.
De mest spændende historier opnås, når metoderne kombineres ud fra journalistiske kriterier - både i udvælgelse og præsentation.

Juridiske spørgsmål
Et af de uløste spørgsmål handler om retten til at skrabe de offentlige og private web-sider og genbruge data i en ny præsentation. I begyndelsen var praksis at være pæne og anmelde brug af en robot på en side til webmasteren. I dag henter man normalt blot oplysningerne uden først at anmelde, med mindre man med en kontrakt er bundet til ikke at gøre det.
Mediejurister vurderer, at offentlige myndigheder ikke kan hævde en ophavsret til deres data, og at de heller ikke kan forbyde robotter med en argumentation om, at de gør hjemmesiderne for langsomme. Det sidste forsøger myndighederne ofte. Det er sket blandt andet i en prøvesag om et udtræk, som jeg ønskede fra husdyrbrugsregistret fra Fødevarestyrelsen. Ombudsmanden har her vurderet, at jeg ikke behøvede at spørge om lov til at sætte en robot i gang, men at jeg på den anden side heller ikke bare kan sætte en robot til at køre i meget lang tid op mod en myndigheds side.
For medier betyder det, at der her er et alternativ til at køre en langvarig sag om at få aktindsigt til data. Selvfølgelig bør man normalt først spørge, om man kan få data tilsendt eller downloadet. Ikke mindst fordi der så ikke er tvivl om, at data er komplette. Men kan man få data udleverfet, kan man ofte hente dem fra en database, som myndigheden driver på nettet og dermed komme først ud med historien.

Automatiske kørsler
Robotter benyttes ikke kun til at foretage et engangsudtræk fra et register. Næste skridt er at køre dem med faste intervaller for løbende at opdatere en database eller overvåge en nyhedsside, der ikke selv har rss-feeds, eller hvor de ikke fungerer tilfredsstillende.
Kaas & Mulvad har blandt andet kørt en sådan tjeneste for Ritzau, hvor en del af siderne blev overvåget på minutbasis, for eksempel forsvarets og kongehusets hjemmesider. Kom der en nyhed om en død soldat eller en nyfødt i Kongehuset, kunne Ritzau regne med at have et rss-feed ind i deres redaktionelle system senest to minutter senere.
Systemet har været en så stor succes, at Ritzau selv har overtaget det og i dag kører det selv.

IT-genererede nyheder og grafikker
USA er længst med IT-genererede nyheder. New York Times er spændende at følge, fordi avisen går langt med at omdanne de mange data til interaktive grafikker, dvs. de eksperimenterer med og videreudvikler helt nye fortælleteknikker.
Også Washington Post og St. Petersburg Times i Florida er nogle af frontløberne.
Tendensen fra større medier i USA er i øjeblikket, at hvis journalister selv vil styre, hvordan deres databaserede historier præsenteres på nettet, må de selv lære sig at programmere. IT-afdelinger og web-redaktioner er som regel bundet op af rutineopgaver og kan sjældent rykke med den hast, som denne type nyhedsformidling kræver. Det er ikke noget, journalisterne beklager sig over – det er bare en konstatering.
Den tidligere databaseredaktør på Washington Post, Sarah Cohen, er fra juli 2009 ansat som Knight professor på Duke University, North Carolina, i computational journalism, som er en amerikansk samlebetegnelse for denne type journalistik.
I Europa har vi ikke set den tendens med nær samme styrke. Kaas & Mulvad har derfor valgt at samarbejde med nogle af de unge amerikanske journalister, der er gået denne vej, nemlig Chase Davis og Matthew Waite.
I Europa er der desuden en del programmører især i det engelske miljø omkring mySociety, som arbejder med skrabning og kaskadeprogrammering, og som måske er et signal om, at denne udvikling ikke kommer med medierne som drivkraft.
En del af disse folk mødtes med aktindsigts-aktivister og CAR-journalister på Europas første Open Data Summit i første uge af maj 2009 for at samle alle de nyligt offentliggjorte landbrugsstøttedata, lave en oversigt over europæiske databaser og udveksle erfaringer.

Tune robotter og servere
En meget central del af udviklingen af overvågning i øjeblikket er at tune robotter og servere, så robotterne kan køre meget hurtigt. Det betyder, at der for eksempel kan køre mere end 100 robotter fra et bibliotek med meget korte mellemrum, og at man kan have flere af den slags klumper af robotter kørende på samme tid.
Alle medier skal være opmærksomme på de muligheder for at tune overvågning. Mens den type overvågning endnu ikke er særlig brugt i medieverdenen, er der mange andre nyheds-hjemmesider som for eksempel danske www.boliga.dk, der benytter den slags metoder i stor stil. Så på mange måder er det kendt teknologi, som først nu er blevet kendt af medierne.

De gode spørgsmål:
- Vil de traditionelle medier kunne håndtere denne meget database-drevne udvikling og integration af data fra forskellige kilder og journalistisk vinklet præsentation af data?
- Eller vil det mere være annonceprægede medier, søgetjenester eller netværkssider, der lettere kan gå videre her og integrere den almindelige nyhedsproduktion som et yderligere element i en helt ny forretningsmodel?
- Eller vil det komme fra et helt tredje sted som for eksempel de unge programmører, der udvikler sig hen mod journalistik og nyhedsdækning?
Af gennemsnitsjournalisten og bibliotekarer betragtes Computer-assisted Reporting, CAR, måske fortsat som noget lidt eksotisk, men CAR er på ingen måde en nyhed mere. Hvad CAR er og dækker, udvikler sig dog fortsat.
De traditionelle tal-analyser vil fremover oftere blive suppleret af løbende mapping, robotindsamling og løbende udgivelse af data vinklet som nyhedshistorier, der er opdateret konstant.
Og CAR vil således være en central bestanddel i IT-genererede nyheder, som via robotter og andre tjenester løbende opdateres på nettet. Det kan være som et element i en almindelig internet-nyhedstjenester, eller det kan være sammenvoksede tjenester, hvor nyhederne kun er et blandt flere elementer.

Links:
Diverse links til computer-genererede historier:

Hvad tjener de bedst lønnede CEO’s?
Det kan man se på dette amerikanske fagforeningssite:
http://www.aflcio.org/corporatewatch/paywatch/
Prøv fx at klikke på ”100 highest paid CEO’s”:
http://www.aflcio.org/corporatewatch/paywatch/ceou/top100.cfm
og klik så på en enkelt virksomhed:
http://www.aflcio.org/corporatewatch/paywatch/ceou/database.cfm?tkr=LAZ&pg=1
Og man får en automatisk genereret tekst om den pågældende.

Et andet eksempel:
http://www.aflcio.org/corporatewatch/paywatch/ceou/database.cfm?tkr=LAZ&pg=4

Neighborhood Watch viser en hel del autogenererede sider:
http://watch.tampabay.com/homes/

Et andet eksempel med autogenereret indhold:
http://watch.tampabay.com/homes/pinellas/neighborhood/belleair/

Kaas & Mulvad har selv for et par år siden hjulpet altinget.dk med en konstant opdateret liste over politikeres fravær. Den ligger på forsiden her:
www.altinget.dk

Her er essensen af den lokale journalistik - Adrian Holovatys side, Everyblock:
http://www.everyblock.org
Adrian Holovaty har udviklet Django.

Her er linket til Kaas & Mulvads første eksperiment med automatisk at geocode de daglige hushandler fra statstidende:
http://www.kaasogmulvad.dk/unv/statsejd/km.htm

Her er link til et par af de nye spændende interaktive grafikker fra New York Times, samt en henvisning til en hel liste af dem:
http://www.nytimes.com/interactive/2008/11/04/us/politics/20081104_ELECTION_WORDTRAIN.html
http://www.nytimes.com/interactive/2009/02/02/sports/20090202_superbowl_twitter.html
http://www.google.dk/search?hl=da&rlz=1G1ACAW_DADK324&q=site%3Anytimes.com+inurl%3Ainteractive&meta=

Chase Davis og Matthew Waite har lavet BankTracker for MSNBC and the Investigative Reporting Workshop. De fik 600.000-700.000 sidevisninger første dag http://banktracker.investigativereportingworkshop.org/banks/

Andre klassiske eksempler er
Washington Posts The Congress Votes database:
http://projects.washingtonpost.com/congress/

PolitiFact – fik Pulitzer-prisen I år for bedste national reporting:
http://www.politifact.org

LA Times side om mord vist i Google Map:
http://www.latimes.com/news/local/crime/homicidemap/

Handout fra mig om links til diverse europæiske datakilder:
http://www.kaasogmulvad.dk/unv/handouts/International_data.pdf

Liste, som blev genereret på Open Data Summit i maj 2009:
http://ckan.net/tag/read/eutransparency

Omtale af landbrugsstøtte-oplysningerne:
http://www.euractiv.com/en/pa/cap-transparency-scheme-failing-ngo/article-182170

Undervisningsmateriale I Open Kapow:
www.kaasogmulvad.dk/unv/openkapow/KM-H-Kapow-Make-robot1-dk.pdf
www.kaasogmulvad.dk/unv/openkapow/KM-H-Kapow-Run-robot1_dk.pdf
www.kaasogmulvad.dk/unv/openkapow/KM-O-Kapow-Make-robot1_dk.pdf
Testrobotter:
www.kaasogmulvad.dk/unv/openkapow/testrobots20090313.zip

Ingen kommentarer: