Hopp til hovedinnhold

Bruk av maskinlæring i katalogisering

8. juni 2022

Bokbasen er hele tiden opptatt av å sikre at bøkene vi katalogiserer har korrekte og kvalitetssikrede metadata. Riktige og gode metadata er essensielle for gjenfinning av bøker, og videre også for tilgjengeliggjøring og salg av bøkene. I et pågående prosjekt jobber vi nå med bruk av maskinlæring for å sikre enda bedre metadata på bøker som registreres hos oss.

Innsamling av trykkegrunnlag

Bokbasen samler i dag inn trykkunderlag av alle utgivelser som blir registrert i Bokbasen på oppdrag fra Nasjonalbiblioteket . I følge Lov om avleveringsplikt for allment tilgjengelige dokument (pliktavleveringslova) skal fysiske eksemplarer og digitale grunnlagsdokumenter (trykkunderlag) for trykte utgivelser samt e-bøker og e-lydbøker, avleveres til Nasjonalbiblioteket (NB).
Trykkunderlaget leveres som pdf-filer som inneholder henholdsvis omslaget og hele bokens innhold (materie/innmat). Bokbasen videreformidler filene til Nasjonalbiblioteket, men bruker dem også selv i katalogiseringsarbeidet.

Lavere forbruk av papir gir miljøgevinst

I dag mottar vi et fysisk eksemplar av alle bøker som registreres i basen. Ved å gå over til å katalogisere bøkene ut fra trykkunderlaget kan vi fremover redusere leveransen av fysiske bøker til Bokbasen. I tråd med FNs klimamål om ansvarlig forbruk og produksjon ønsker vi slik å bidra til lavere forbruk, som i denne sammenhengen er papir, papp og transport. Vi er allerede i gang med å redusere mottaket av fysiske bøker, og vil fortsette å redusere ytterligere utover høsten. 

Bruk av maskinlæring i katalogiseringsarbeidet

Bokbasen arbeider nå med å utvikle et helt nytt katalogiseringsverktøy, og i dette verktøyet vil vi bruke maskinlæring til å automatisere deler av katalogiseringsarbeidet. Maskinen kan verifisere at innsendt metadata samsvarer med det som står i trykkunderlaget, og kan gi forslag til verdier som forlagsnavn, aktører, utgivelsesår og tittelinformasjon hentet fra kolofonen og tittelsiden i boken. Forslagene må etterprøves i starten, men etter hvert som maskinen lærer og blir mer pålitelig kan vi slutte å manuelt kontrollere at for eksempel ISBN-et som er registrert i metadataene stemmer overens med ISBN-et som står i boken. 

Enda mer spennende er det å bruke maskinlæring til å få hjelp med innholdsanalysen av boken. Bibliotekarene som katalogiserer har ikke tid til å lese alle bøkene, men det er ikke noe problem for en maskin. Vi ønsker at maskinen skal gi forslag til emneord, og trekke ut personnavn, stedsnavn og navn på kjente bygninger, kunstverk osv. for å hjelpe katalogisatoren med å få et bedre innblikk i hva boken handler om og berike metadataene.

Dette er bare noen eksempler på hvordan bruk av maskinlæring kan bidra til enda bedre metadata om bøkene som registreres hos oss. Med enda bedre metadata vil det ble enda enklere for våre kunder, som for eksempel bokhandlere, nettbokhandler, bibliotek og strømmetjenester å presentere bøker for sine kunder, for å hjelpe dem til å finne frem til riktig bok. Slik kan vi igjen bidra til gode leseopplevelser blant lesere.

Hvis du synes maskinlæring er interessant og har lyst til å vite mer om hvordan vi jobber med dette i katalogiseringsarbeidet så ta gjerne kontakt med oss!