FD-Trygd - 20-prosentsutvalg

FD-Trygd er en omfattende forløpsdatabase som gir brukere en unik mulighet til å analyse enkeltindividers bevegelser mellom de ulike trygdeordninger. Databasen inneholder også opplysninger om sysselsettingsstatus, demografi og utdanning, og dekker hele befolkningen fra og med 1992. Individ er statistisk enhet, og opplysningene består av registreringer av begivenheter i den enkelte persons livsløp. Disse registreringene kan settes sammen til individuelle hendelses- eller forløpshistorier (forløpsdata), og aggregert over en gruppe av individer eller en hel populasjon, gir forløpsdataene oversikt over bevegelsene mellom suksessive begivenheter eller tilstandsendringer.

Alle de trygderelaterte administrative registerdata hentes fra NAV, mens Statistisk sentralbyrå (SSB) er kilden til demografi- og utdanningsopplysninger. Fra Skattedirektoratet hentes dessuten data om inntekt og formue. SSB står for systematiseringen, konsistensbehandlingen og tilretteleggingen av de ulike registerfilene, slik at forløpsdatabasen kan brukes til forskningsformål.

Analyser med behov for mange variabler, stort utvalg og/eller detaljerte verdier, krever godkjenning fra relevante instanser (bl.a. tilråding fra personvernombud eller konsesjon fra Datatilsynet, og dispensasjon fra taushetsplikten) før en datautlevering kan foretas av SSB. For å gjøre tilgangen til FD-Trygd enklere, kan NSD tilby anonymiserte registerdata fra et 20-prosentsutvalg trukket fra trygdedatabasen. Utvalgsbegrensningen og anonymiseringen gjør at brukere slipper den omfattende søknadsprosessen en ellers måtte gått gjennom. I tillegg vil ventetiden fra bestilling til datautlevering kortes ned, samt at dataene blir gratis. Særlig for studenter som trenger tilgang på registerdata i forbindelse med mastergradsoppgaver og andre forskningsprosjekter, vil denne tjenesten være gunstig.

NSD kan tilby anonymiserte registerdata innen følgende emneområder:

Populasjon

20-prosentsutvalget er et tilfeldig utvalg trukket fra FD-Trygd, dvs. befolkningen som har vært bosatt i Norge en eller annen gang f.o.m. 01.01.1992.

Det tilfeldige utvalget tar utgangspunkt i et 20-prosents tverrsnittsuttak av bosatte per 01.01.1992. Deretter gjøres det årlige oppdateringer med 20 prosent av alle nye tilganger (fødsler og innvandring) i FD-Trygd for å kompensere for naturlig frafall (dødsfall og utvandring). Dermed vil utvalget på et hvert tidspunkt utgjøre 20 prosent av den norske befolkning.

Anonymiseringstiltak

NSD har ikke mulighet til å utlevere data for hele 20-prosentsutvalget, men kun 10% av den aktuelle populasjon. I tillegg må dataene bearbeides slik at de blir å betrakte som anonyme. Anonymiseringen innebærer at antallet variabler begrenses til det mest nødvendige, og at en for mange av variablene må foreta en verdiaggregering. Dette gjelder særlig opplysninger om inntekt/formue, utdanning, næringskoder og yrkeskoder. Detaljer rundt dette omtales for de variabler det gjelder under variabelbeskrivelsene.

Et variabeluttak må uansett ikke være av en slik størrelse at enkeltindivider står i fare for å kunne bli identifisert. I tillegg til antallet, spiller også variablenes art inn under vurderingen av hvor personidentifiserende de er. NSD vil i hvert enkelt tilfelle foreta en vurdering, og eventuelt foreslå justeringer i datauttaket med tanke på utvalgsstørrelse, antallet variabler og/eller detaljeringsgrad.

Etter en prøveperiode på de første 20-30 datautleveringene vil en, basert på erfaringer og tilbakemeldinger, foreta en justering av anonymiseringsprosedyrene og eventuelt dataomfanget. Noe av det som vil bli gjort er å erstatte utvalgsbegrensningen på maks 10% med en formel der antall observasjoner og variabler inngår. Dette vil trolig gi en større fleksibilitet under tilretteleggingen av anonymiserte individdata fra FD-Trygd-utvalget, ved at en kan øke utvalgsstørrelsen mot en redusering av antallet variabler og vice versa. Men fleksibiliteten kommer an på hvordan den nevnte formell vil bli utformet.

Status/aktualitet

Datafiler for de fleste temaområdene er tilgjengelige for årene 1992-2008. Inntekts- og formuesopplysningene foreligger imidlertid kun for årgangene 2005-2007 inntil videre. Disse vil etterhvert bli oppdatert med flere årganger.

Før anonymiserte data kan utleveres til forskningsprosjekter og mastergradsoppgaver, må en formell databehandleravtale inngås mellom SSB og NSD. Dette vil sannsynligvis komme på plass i løpet av 1. halvår 2012.

Det var opprinnelig planer om å inkludere forløpsdata for utvalgets respektive ektefeller i datamaterialet, dvs. innenfor emneområdene alderspensjon, AFP, uførepensjon, og pensjonsgivende inntekt, men dette er inntil videre lagt på vent. En vil vurdere å inkludere slike data ved et senere tidspunkt, trolig ved utløpet av prøveperioden. Forløpsdata for ektefeller vil føre til en komplisering av anonymiseringsarbeidet, og derfor behøves det mer tid til å kartlegge implikasjonene av en slik utvidelse av datamaterialet.

Databestilling

Ønskes ytterligere informasjon om FD-Trygd - 20-prosentsutvalget eller om datakilden FD-Trygd, vises det til en mer utførlig dokumentasjon i NSDs dokumentasjonssystem Nesstar (klikk på lenken). Systemet inneholder blant annet detaljert variabelinformasjon.

For å få utlevert data fra FD-Trygd - 20-prosentsutvalget, stilles det en del krav, deriblant til hva en bestilling bør inneholde.

Henvendelser om data kan rettes til NSD.