Research and Advanced Technology for Digital Libraries, 4th European Conference , EDCL 2000

 

Lisboa, 18. – 20. September 2000

 

José Borbinha og Thomas Baker (Eds.): Research and Advanced Technology for Digital Libraries, 4th European Conference, ECDJ 2000, Lisbon, Portugal, September 2000, Lecture Notes in Computer Science 1923, Springer, pp 513,Proceedings

 

http://www.bn.pt/org/agenda/ecdl2000/

 

Rapport

av

Anne Asserson,

Avdeling for forskningsdokumentasjon, UIB

27. september 2000

 

Inntrykk

Mange parallelle sesjoner ga et spredt og variert inntrykk.  Konferansen bestod hovedsakelig av innlegg som beskrev lokale anstrengelser av enten bibliotekarer eller informatikere for å utforme løsninger på lokale problemer.  Flere presentasjoner viste til scanning av eldre materiale som manuskript, noter, med mer og viste til problemer med mønstergjenkjenning av bilder og tekst. Metadata gikk som en rød tråd gjennom konferansen og var på mange måter et hovedtema. Grunnen er antagelig at det er klart at distribusjon og heterogenitet ved forskjellige web-kilder ikke lar seg løse uten samhandlingen metadata kan gi. CER/ISSS http://www.cenorm.be/isss/Workshop/MMI-DC/Default.htm gjør Dublin Core (DC) til metadata standard for digitale bibliotek. Det var imidlertid påfallende hvor mange som hadde forsøkt å anvende DC innen forskjellige områder, uten å lykkes. En rekke presentasjoner viste til enkeltstående utvidelser og modifikasjoner av DC. Fra et medlem i DC-arbeidsgruppen  ble det fremmet et forslag om å gjøre DC mer dynamisk ved å introdusere hendelser/events. Problemene med å  nå frem til informasjonen som ligger i ‘Det usynlige web’ dvs informasjon i databaser bak webservere, ble også tatt opp.  Det virket også som om problemer knyttet til multilingvalitet er glemt i bidragene fra den store engelskspråklige del av konferansen.

 

Formål

Konferansen har bl.a. som formål å bringe sammen forskjellige miljøer som arbeider innen området digitalt bibliotek,  og det er spesielt tenkt som et forum for utveksling erfaring/ideer mellom bibliotekene og informatikk-miljøene. Tanken er at bibliotekene gir problemområdene og er premissleverandører. Digitale bibliotek ses også  i et globalt perspektiv innen forskning og industri.

 

Deltagere

EDCL2000 er den fjerde konferansen i denne serien, som startet opp i Pisa 1997 og var i år den hittil største konferansen med ca 420 deltagere. Det deltok 16 fra Norge, hvorav 8 var fra Høyskolen i Oslo, 3 fra UiB, en fra hver av følgende institusjoner NTNU, NB, HiMolde, HiAgder og NRK bibliotek. Ca 10% av deltagerne var fra USA.


Tutorial, søndag 17. september 2000:

Edvard Fox: ’Digital library: An overview’

’Digital Library are complex data/information/konwledge (herafter information) systems that help: satisfy the informasion needs of users, provide information services, organize information in usable ways, manage the location of information and communicates with users and their agents. (Edvard Fox)

 

Edvard Fox ga en heldags tutorial over Digital Library http://ei.cs.vt.edu/~dlib/tut/ECDL2000.htm men konsentrerte seg stort sett om Virgnina Tech (VT). Han har en visjon om åpen tilgang til kilder og samarbeid, og var en av  drivkreftene bak e-Theses og Networked Digital Library of Theses and Dissertations prosjektet ved VT  http://www.ndltd.org/  I lys av den nye sammendragstjenesten  for dr.grader som vi arbeider med ved UiB, hadde jeg store forventninger til hans tutorial. Det ble imidlertid mye gjennomgang av websider, men følgende hovedpunkter ble behandlet:

 

·         Arkivet ved VT er omtrent  bare i proprietært Adobe PDF-format  med noen i postscript. Noen få er i  SGML, men det synes vanskelig å overtale forskerne til å bruke SGML.

·         Metadatabasen er definert i et format som ikke er kompatibelt med  DC (Dublin Core) og OAI (Open Archive Initiative)

·         Det er mange institusjoner som har meldt sin interesse som medlem  til  ‘e-Theses’ prosjektet,  men det er bare 10-20 som bruker softwaren som er utviklet – og av disse har flere, inkludert MIT, definert sin egen variant av systemet.

·         Som medlem av Networked Digital Library of Theses and Dissertations (NDLTD)  deltar man i et samarbeid knyttet til bruk av standarder og deling/utveksling av informasjon for å sikre interoperabilitet. UiB er nå etter initiativ fra vår avdleing blitt medlem.

·         Serverteknologien som både NDTLD og OAI bygger på er Dienst. Dienst er en distribuert database. Et  innlegg på konferansen demonstrerte at Dienst ikke kan brukes ved større datamengder, fordi systemet ikke kan håndtere volum, dvs mer enn 30 tusen records.

 

Konferansen, 18. – 20. september

Konferansen hadde 3, av og til 4, parallelle løp. Følgelig  blir dette bare en oversikt over en del av alt som foregikk.

 

Invited talks

Tankevekkende og interessant innlegg var  ’Open access to digital Libraries: Must research libraries be expensive?’ http://www.bn.pt/org/agenda/ecdl2000/arms.htm  fra William Y.Arms, Cornell.

 

Scanned Input

·         Det ble under denne sesjonen vist interessante teknikker for behandling av middelalder manuskript (tekst og musikk)  og bilder. Grunnlaget var ’pattern matcing’ av både bilde og tekst. Fremdeles en del problemer, tekstgjenkjenning hadde feilsalg på ca 25%, bildene gikk det bedre med. Neurale nettverk med evne til læring hadde kanskje egnet seg bedre?

 

Metadata

·         Metadata var et gjennomgående tema i de fleste presentasjonene. Flere innlegg foreslo utvidelser til DC – alle var inkompatible med hverandre (Manchester, Cornell, Frankfurt, Surrey)

·         Spesielt arbeidet ved Surrey  adresserte metadata som beskrev en distribuert repository med over 100,000 fulltekst objekter, hvorav 32,000 er online. http://openlib.org/home/krichel/phoenix.html Metadata er formalisert i en relasjonell variant av DC. Ikke ulikt http://www.fou.uib.no/fou/grey_lit/literature.html

·         Det kom klart frem at presentasjonene erkjente at DC er utilstrekkelig både i syntaks og semantikk.

·         Dagens DC er foreslått som standard av CER/ISSS,  men  metadatamodellen vil fortsatt endres. Arbeidsgruppen ser ut til å være delt:  

Stuart Weibel vil ha det enkelt, Carl Lagoze ser at web-applikasjoner krever en modell som kan gi relasjoner mellom elementene og at automatisering krever en mer formell modell. Lagoze  introduserte et nytt element som han kaller ‘event’. Imidlertid tar denne modellen vare på overgangstilstandene (metatdata recods) isteden for start- eller slutt-tilstanden.  Det temporale/event-rammeverket bør ligge som constraints, utenfor tilstandsrepresentasjonen av DC. CRIS/CERIF modellen  www.cordis.lu/cerif   har løst dette. Som  ved eks. tidsangitt rolle mellom to entiteter.

·         Det ble bl.a. også referert til IFLA-modellen

·         Det viste seg at metadata for Alexandria-prosjektet (som nærmest kan betegnes som et  geografisk informationssystem) ikke er kompatibelt med andre metadata.

 

 

Interoperability

·        Begrepet ’The invisible web’ ble introdusert. Et prosjekt i Frankfurt hadde utviklet en arkitektur for søk i metadata  for å identifisere skjulte kilder på web. Dette krever at metadata legges tilgjengelig utenfor databasen slik at de kan fanges opp, men man kommer ikke  lenger enn til inngangsdøren til kilden/databasen.

·         Metoden gikk ut på å trekke ut metadata , dvs DC med noen tilleggselementer, som ble kalt Frankfurt Core (FC). Tilleggselementene var beskrivelser av den fysiske representasjonen av kildene, hentet fra logg i Altavista-søk. Klassifikasjone var utarbeidet manuelt  (med termer fra begrenset domene) for å koble de forskjellige metadatasett. Eg. Forskjeller i attributter, entities (elements) og constraints.  Klassifiseringssystemet forbedret fremhentingen.

·         Flere presentasjoner adresserte  forsøk på å løse problemer ved hjelp av metadata (Manchester, Cornell), men det virket som det ikke var tatt hensyn til problemet med metadatasett med inkompatible attributtverdier, entitetsnavn og struktur.

 

Malvine

Malvine http://www.malvine.org/malvine/publications/cusd-1_bn_1_0.pdf  nevnes her fordi UiB/HiT- senteret deltar ved Tone Merete Bruvik, ELINE. Prosjektet har som mål å utarbeide en global katalog/union av metadata over heterogene multilinguale samlinger/repository av eldre manuskripter ved bruk av USMarc. Metadata/ referansene lagres i XML-format.  Arkitekturen ligner på ERGO www.cordis.lu/ergo

 

Oppsummering av punktene

Metadata

·         Det er idag ingen full enighet om en metadata-standard for digitale bibliotek, men :

1.       DC er den nærmeste og den utvikler seg til å bli en CEN standard. (paper by Stu Weibel http://www.bn.pt/org/agenda/ecdl2000/papers.html . DC synes å bli akseptert hurtigere i Europa enn i USA

2.       Det er en utvikling av DC mot en formell syntaks og semantisk modell basert på entiteter, relasjoner, attrubutter og constraints.  Dette ble dekket av  4 presentasjoner inkludert  Carl Lagoze http://www.bn.pt/org/agenda/ecdl2000/papers.html 

3.       Open Archive Initiativ, OAI,  har bestemt seg for å gå for  DC. Imidlertid skal Kirchel, RePEc, Surrey, som viste til et behov for relasjonell modell, etter sigende rådgi OAI mht bl.a. metadata.

 

Videre

 

Hva har jeg lært?

Når det gjelder metadata ser det ut til at DC er hverken formell nok eller klart nok definert for praktisk bruk. Syntaksen er ikke formell nok (eks. forslag om dynamikk ved relasjoner) og semantikken (eks definisjon av elementene) er ikke presis nok. I mellomtiden kan man tenke seg DC som et subsett av et mer formalisert metadatasett, slik som vi planlegger i vårt nye system og som også ble vist til i Helsinki ftp://ftp.cordis.lu/pub/cris2000/docs/jeffery_fulltext.pdf

Det fremkom under konferansen at man bruker relasjonsdatabaser i produksjonssystemene. Eksportformat bør være XML, som eks i Malvinprosjektet, og som vi også i avdelingens utviklingsarbeid ser som en løsning. Fulltekst bør bevares i SGML/XML for langtidslagring.