To e-Laborate homepage   Login   Huygens Instituut
e-laborate (nl) >

Vaderlandsche Letteroefeningen (VLO) 1761-1799

Show printer-friendly view Print View   switch to en        
Over deze website


De eerste veertig jaargangen van De Vaderlandsche Letteroefeningen zijn inmiddels in scan en ruwe OCR beschikbaar; deze kunt u bereiken via de eerste link in de rechterkolom van deze pagina. De inhoud is vrij in te zien voor iedereen. Alleen geregistreerde gebruikers kunnen echter hierin tekst toevoegen, annotaties aanbrengen etc.

Als u wilt uitproberen hoe e-Laborate werkt, stuurt u dan een mail aan elaborate@huygensinstituut.knaw.nl. U krijgt dan een tijdelijke inlognaam en password voor een eigen folder om in te experimenteren. Een beknopte uitleg van de belangrijkste functionaliteiten vindt u onder de link Handleiding in de kolom rechts van deze pagina.

Een van de doelstellingen van deze website is om te demonstreren hoe gemakkelijk het is als teksten digitaal voor iedereen beschikbaar zijn. Gebruikers worden hierbij nadrukkelijk uitgenodigd om hun publicaties naar aanleiding van hun onderzoek naar dit materiaal ook digitaal beschikbaar te stellen door deze onder te brengen in een van de academische repositories of op deze website. Meer hierover is te vinden in de folder Publicaties.

De visie achter (de begin 2004 afgeronde eerste fase van) e-Laborate staat hieronder toegelicht.


 
Vaderlandsche Letteroefeningen: de gekozen aanpak ofwel het ruwe data manifest


Het e-laborateproject draait om het aanbieden van de mogelijkheden tot het delen van en samenwerken aan tekstmateriaal en aan datasets. De samenwerking voor datasets is het onderwerp van het subproject X-Past. Als testcase voor het andere subproject heeft de stuurgroep van e-laborate gekozen voor het historisch-culturele tijdschrift Vaderlandsche Letteroefeningen. Op grond van dit tijdschrift worden elektronische hulpmiddelen voor samenwerking rond tekst en tekstmateriaal ontwikkeld, die ook voor ander tekstmateriaal ingezet zullen kunnen worden.

De aanpak die we hebben gekozen, verschilt fundamenteel van de wijze waarop de digitalisering van tekstmateriaal totnutoe is uitgevoerd. De gekozen werkwijze wordt op deze pagina nader toegelicht voor zowel de (toekomstige) gebruikers van deze website als voor andere belangstellenden.

 
1. Inleiding


Het tijdschrift Vaderlandsche Letteroefeningen (VLO) verscheen in de periode 1761 tot 1876 en is van groot belang voor elke onderzoeksdiscipline die de cultuur van die periode bestudeert. De wens om alle jaargangen van dit tijdschrift digitaal ter beschikking te stellen leeft al lang. Vanwege de enorme omvang (en de gigantische kosten die digitalisering van dat alles met zich mee zou brengen) is dit tot nu toe echter niet gelukt. Het doel van het onderdeel VLO van het project e-laborate is om te proberen via een gefaseerde aanpak en gebruikmakend van de hulp van onderzoekers tot een digitale VLO te komen. De bedoeling is dus níet dat het NIWI de integrale VLO in perfecte staat op het Internet plaatst, maar op grond van de werkelijke wensen van gebruikers hulpmiddelen ontwikkelt waarmee de gebruikers zelf op een doelmatige wijze scans en door de computer gemaakte transcripties kunnen toevoegen, verbeteren, en doorzoeken. Ook zullen hulpmiddelen worden gemaakt om in de bestanden te kunnen zoeken, de zoekresultaten overzichtelijk te presenteren en de resultaten eventueel verder te bewerken of statistisch te analyseren. We zijn er zeker van dat we op deze manier ervaringen opdoen die ook van groot belang zijn voor ander materiaal dan de VLO.

Op deze plaats van de site zal het NIWI in de loop van de komende maanden steeds meer scans doen verschijnen van VLO-afleveringen, vergezeld van de zogeheten 'vuile' OCR, dus de nog niet (handmatig) gecorrigeerde machineleesbare bestanden die met behulp van bestaande programmatuur uit de scans zijn afgeleid. Ook zullen er op verzoek van de gebruikers hulpmiddelen worden toegevoegd ter verbetering, verrijking en dergelijke van de bestanden. Die hulpmiddelen moeten vervolgens door de gebruikers worden getest, zodat zij optimaal op de wensen afgestemd kunnen worden. Voordat we dieper op deze aanpak ingaan, geven we in paragraaf 2 een korte beschrijving van wat wij verstaan onder zaken als scans, OCR en verrijking (tags, TEI, XML). In paragraaf 3 zullen we vervolgens toelichten hoe deze worden aangewend in het VLO-project.

 
2. Uitgangspunten


Onder een scan verstaan wij hier een digitale afbeelding van een pagina uit de VLO. Een scan kan op verschillende manieren tot stand gebracht zijn: door een exemplaar van het tijdschrift geopend op de betreffende bladzijde op een scanner te leggen, door een foto of een fotokopie van een bladzijde op de scanner te leggen; de scan kan vervaardigd zijn met een digitale camera, of zijn gemaakt op basis van een microfilm. Verder kan de scan gemaakt zijn met verschillende kleurenopties: zwartwit, grijstinten, en kleur (waarvoor weer verschillende instellingen mogelijk zijn). Daarbij kan de resolutie - de grofheid/fijnheid, dus precisie - van de scan van tevoren worden ingesteld op een bepaalde hoeveelheid 'pixels', dpi, ofwel: Dots Per Inch, de hoeveelheid beeldpunten per gescande inch (= ca. 2,5 cm). Hoe meer beeldpunten per inch worden gescand, hoe preciezer het beeld wordt en hoe verder kan worden ingezoomd. De manier waarop een tekst wordt gescand hangt af van het precieze doel. Conservering van een tekstdrager vereist kleur en hoge resolutie, terwijl beschikbaarstelling van de inhoud gewoonlijk bereikt kan worden met scans in grijstinten en met een lagere resolutie. De scans die we de komende tijd ter beschikking stellen zijn gemaakt door het exemplaar uit de Bijzondere Collecties van de KNAW-bibliotheek (gevestigd in het NIWI) op een scanner te leggen. Er is gescand op grijstinten en de precisie is 300 dpi.

De afkorting OCR staat voor Optical Character Recognition. Er bestaan verschillende programma's waarmee gescande tekst 'machineleesbaar' is te maken, dat wil zeggen om de lijntjes en stippen op een bladzijde VLO-tekst om te zetten in computercode die aangeeft van welke letters en cijfers e.d. er waarschijnlijk sprake is. Pas dan valt er ook te zoeken in een digitale tekst. Voor moderne gedrukte tekst is de herkenningsgraad bijzonder hoog, maar hoe ouder een publicatie is, hoe lastiger het wordt. Gedrukte tekst van rond 1800 wordt gewoonlijk als hopeloos beschouwd voor optical character recognition: de gevestigde (maar niet helemaal correcte) indruk is dat er meer verkeerd gaat dan goed. In paragraaf 4 gaan we nader in op OCR in het VLO-project.

Digitale tekst wordt gewoonlijk verrijkt met allerlei voor de lezer onzichtbare codes die bepalen hoe de tekst moet worden weergegeven. Een voorbeeld is een tab-code die aangeeft dat een nieuwe alinea moet inspringen. Vergelijkbare onzichtbare codes kunnen worden gebruikt om informatie in een tekst als het ware van een label te voorzien, zodat de gebruikers de tekst daar later op kunnen ordenen of doorzoeken. Dergelijke codes die aan digitaal materiaal worden toegevoegd heten tags. Het bereik waarop een tag betrekking heeft kan heel specifiek worden aangegeven: op één woord (desnoods één letter), op een frase, een zin, een alinea, een pagina, een hele tekst, een deel van een bladzijde of van een scan. Voor de humaniora is er een standaardcodering ontwikkeld, de TEI (Text Encoding Initiative). Hierin wordt een richtlijn gegeven voor het coderen van aspecten van tekst zoals die als nuttig ervaren kan worden door onderzoekers in de humaniora. De TEI is bijzonder uitgebreid en complex, zodat elke onderzoeker hierin wel iets kan vinden dat van pas komt voor zijn onderzoeksvragen. Maar het is voor de uitgever van een digitale tekst onmogelijk om zijn tekst volledig volgens de TEI te taggen: dat zou veel te veel tijd kosten, zowel voor studie van het coderingssysteem als voor de daadwerkelijke uitvoering. Bovendien legt de TEI-codering over het algemeen de nadruk op de min of meer toevallige weergave van de tekst en niet op de inhoud waar de meeste geesteswetenschappers met name in geïnteresseerd zijn.

Open Source: computerprogramma's worden gewoonlijk 'dichtgetimmerd' aan de koper aangeleverd. Dat betekent dat het programma misschien wel doet wat de gebruiker wil, maar dat niet zichtbaar is hoe het precies gebeurt. Met name voor wetenschappelijk onderzoek dat gebruik maakt van dergelijke programma's en waarin de gehanteerde methoden en technieken moeten worden verantwoord is dat erg onhandig. De verkopers van de programmatuur willen op deze wijze voorkomen dat anderen hun product moeiteloos na kunnen maken. Wanneer een product open source wordt opgeleverd, betekent dit dat de makers van het programma precies laten zien wat ze gedaan hebben en hoe het programma werkt, en dat zij gebruikers toestemming geven om hun oplossing te gebruiken in eigen producten. Meestal zijn hier enkele voorwaarden aan verbonden, bijvoorbeeld dat het nieuwe programma ook open source moet zijn.

 
3. Ruwe data


Voor het VLO-project in e-laborate gaan wij uit van de 'ruwe, vuile' data, ongecorrigeerde OCR. Waarom?
Eerst een aantal argumenten tégen ruwe data. Ongecorrigeerde OCR
  • geeft geen goed beeld van de oorspronkelijke tekst, zowel wat vorm als wat inhoud betreft
  • kan niet doorzocht worden op de (correct gespelde) woorden waarop onderzoekers zouden willen zoeken.
Wat het beeld van de oorspronkelijke tekst betreft: dit probleem ondervangen wij door altijd de scans van de tekst in kwestie aan te bieden. Wat de doorzoekbaarheid voor de computer betreft: wij denken dat moderne zoektechnologie ook ruw materiaal goed toegankelijk kan maken.

Een aantal argumenten vóór ruwe data is impliciet al genoemd: het kost ontzaglijk veel tijd om een omvangrijk corpus tot in de puntjes over te (laten) typen. De kosten daarvoor zijn dus enorm. Dat is vaak reden om een bepaald project toch maar NIET te starten en daar schieten onderzoekers helemaal niets mee op. En als er dan toch een groot corpus machineleesbare tekst tot stand gekomen is, kan de onderzoeker nóg niet aan de slag: er zijn hulpmiddelen nodig om te kunnen zoeken, concordanties te maken, gegevens anderszins uit het materiaal af te leiden en verder te bewerken. In de praktijk van de projecten waarin de nadruk wordt gelegd op zo zuiver mogelijke data komt men niet of nauwelijks toe aan de volgende stap.

Er zijn belangrijke redenen om deze gang van zaken kritisch te bekijken, enerzijds omdat de omvang van het werk tijd en geld aan het ontwikkelen van handige hulpmiddelen onttrekt, anderzijds omdat de techniek zover voortgeschreden is dat er andere hulpmiddelen zijn ontwikkeld of ontwikkeld kunnen worden die wellicht net zulke goede resultaten kunnen opleveren wanneer ze worden gebruikt op ruw, ongecorrigeerd materiaal als wanneer een tot in de puntjes gecorrigeerd corpus als bron dient. En als dat inderdaad zo is, is veel van de tijd en het geld dat aan het zuiveren van de data wordt besteed in feite weggegooid geld. Of dit vermoeden klopt, wordt binnen het VLO-onderdeel van e-laborate uitgezocht.

 
4. VLO-tests


Wij hebben tests uitgevoerd om de volgende vragen te beantwoorden:
  • Hoeveel tijd (en dus geld) kost het om VLO-pagina's handmatig over te typen en hoe precies is het resultaat wanneer dat verder NIET wordt gecorrigeerd? Bij het handmatig overtypen zijn cursief, accenten, afbrekingen en dergelijke genegeerd, evenals voetregels en custoden. Hoofdletters worden wel overgenomen.
  • Welk resultaat levert de Abbyy Finereader 7 op? De nieuwste versie van Finereader zou zodanig verbeterd zijn dat de herkenningsgraad hoger is dan ooit tevoren en dat bovendien oudere teksten daardoor beter gelezen zouden kunnen worden. Binnen Finereader zijn er verschillende manieren om een tekst aan te pakken. We hebben gekeken naar de mogelijkheden om de resultaten te verbeteren door (1) gebruik te maken van de trainingsfunctie; (2) door gebruik van de woordenboekfunctie; en (3) naar wat de Finereader oplevert als van geen van deze opties gebruik wordt gemaakt.
  • Is het mogelijk om gebruikers van de scans de optie te geven om vanaf de website de pagina die zij willen bekijken of een bepaalde reeks pagina's door Finereader of een ander OCR-programma te laten lezen en het resultaat rechtstreeks op de website op te roepen, vast te leggen en naar wens te verbeteren?
We geven hier beknopt antwoord op bovenstaande vragen. Handmatige invoering, ook in de meest eenvoudige vorm, levert ongeveer zes getranscribeerde pagina's op per uur. Het gebruikmaken van alle mogelijke opties binnen Finereader om de tekst zo goed mogelijk te krijgen kan dit aantal op zijn best verdubbelen tot ongeveer twaalf pagina's per uur. Op een aantal punten helpen die uitvoerige opties echter maar nauwelijks om het resultaat ook te verbeteren: cursief en vet materiaal blijft moeilijk herkend worden en bepaalde leesfouten komen steeds weer terug. Op grond van deze resultaten hebben we besloten om geen gebruik te maken van de uitvoerige opties binnen Finereader, maar om een protocol op te stellen waarin deze alleen op een basale, weinig tijd kostende manier worden gebruikt, zodat er zoveel mogelijk tekst machineleesbaar wordt gemaakt in zo weinig mogelijk tijd. De fouten die blijven zitten worden door ons geïnventariseerd. In de te ontwikkelen zoekopties laten wij de meest gangbare OCR-fouten inbouwen, zodat een zoekvraag automatisch ook die resultaten oplevert die met een dergelijke scanfout in de VLO-transcripties staan.

De mogelijkheid om de gebruiker op het web scans te laten OCR-en wordt momenteel onderzocht. Hierbij kijken we in samenwerking met het Meertens Instituut naar beschikbare Open Source programmatuur, waarvoor het naar verwachting minder lastig is om die via het web beschikbaar te stellen dan voor een gelicentieerd programma als Finereader.

 
5. Tekstverrijking


Zodra gestart is met het beschikbaarstellen van de eerste sets scans en OCR kan de ontwikkeling van hulpmiddelen om de teksten te doorzoeken en verder te bewerken worden aangevangen. Voor de potentiële VLO-raadpleger betekent deze aanpak dat hij langzamerhand steeds meer opties krijgt in plaats van te moeten wachten op een digitaliseringsproject dat voorlopig niet van de grond komt of pas over een aantal jaren een klein deel van het totale corpus kan geven; hoe perfect dan ook. Behalve de optie om de VLO te raadplegen in de leeszaal van een universiteitsbibliotheek komt er dus als eerste de mogelijkheid bij om op Internet de scans van (steeds meer) VLO-jaargangen te bekijken. Naast die scans is er ruwe OCR aan te maken of op te roepen en te verbeteren. En met deze twee opties kan een onderzoeker al veel meer dan voorheen.

Een vraag die op dit punt gesteld zal worden is: Moet het materiaal niet verder verrijkt worden met XML-tags of andere tags? Ons antwoord is: dat weten we pas als er onderzoekers daadwerkelijk met het materiaal aan de slag gaan. In de geesteswetenschappen is het zo dat elke onderzoeker geheel eigen vragen aan zijn materiaal stelt. Voor andere digitaliseringsprojecten zijn geesteswetenschappers om precies die reden 'lastige gebruikers'; en worden ze zelfs bij voorkeur pas weer bij de zaken betrokken als er al iets gedigitaliseerd is (zoals bij de Digitale Productie Straat). Voor ons is juist die unieke onderzoeker die weet wat hij wil het uitgangspunt voor het ontwikkelen van het corpus en de functionaliteiten. Ook voor de onderzoeker/gebruiker zelf is de verrijking pas iets wat relevant is op het moment dat het materiaal gegevens bevat die voor die onderzoeker van belang zijn. Wij gaan ervan uit dat de onderzoeker liever heeft dat hij nu alvast dingen kan zoeken en vinden waar hij dan zelf nog voor moet uitzoeken bijvoorbeeld in welke publicatie het gezochte zich voordoet, wie daarvan de auteur is, e.d., dan dat hij nog een aantal jaren moet wachten op een perfect getagde tekst die ook die informatie gelijk meegeeft met het zoekresultaat; of waarin de betreffende tekst misschien nog niet eens is opgenomen, liever ook dan dat hij nog de papieren VLO gebruikt.

De logische volgende stap is dat de gebruiker zelf het materiaal kan verrijken op de manier die voor zijn onderzoek relevant is en naar alle waarschijnlijkheid ook nuttig voor collega-onderzoekers. Een van de eerste hulpmiddelen (functionaliteiten) die zullen volgen op de mogelijkheid om de VLO-scans met OCR ter beschikking te stellen is dan ook de mogelijkheid om de tekst interactief van te tags te voorzien zonder noodzakelijke kennis van codes of tagsystemen. Er zal bovendien voor gezorgd worden dat de verrijking niet IN de tekst wordt aangebracht, maar erBIJ, in een apart bestand met de annotaties en per annotatie een omschrijving van de positie(s) in de tekst waarvoor deze is aangemaakt. Deze verrijking zal ook ter beschikking gesteld kunnen worden van andere onderzoekers; eventueel zelfs in verschillende versies: bijvoorbeeld de door onderzoeker X getagde namen naast de door onderzoeker Y getagde namen. Dat houdt dus in dat de gebruiker bij elke zoekactie in het VLO-corpus de presentatie van het corpus verder kan verbeteren (voor zover dat nodig zal blijken te zijn) en verrijken. Die verbeteringen kunnen zelfs verschillende richtingen opgaan en naast elkaar kunnen bestaan. Het verrijkingsproces zal dus niet lineair meer hoeven te zijn, wat betekent dat het niet nodig is om knopen door te hakken die we helemaal niet zouden willen doorhakken omdat dat altijd leidt tot verlies aan opties in plaats van tot meer opties. Het spreekt voor zich dat er voor de gebruikers een manier gecreëerd moet worden om een goed overzicht te krijgen van de reeds aangebrachte verrijkingen en dat er een handige manier aangeboden moet worden om al dan niet van bestaande verrijkingen gebruik te maken bij nieuwe zoekvragen e.d.

 
6. Concluderend


De hier geschetste aanpak is vernieuwend en komt neer op een inversie van de tot op heden gewone omgang met digitalisering en gedigitaliseerd tekstmateriaal. Wij zijn van mening dat de winst die een dergelijke omkering kan opleveren dusdanig interessant is, dat het de moeite loont om dit traject gedegen te verkennen en we nodigen alle gebruikers van e-laborate (de huidige en toekomstige) nadrukkelijk uit om hun ervaringen en wensen aan de stuurgroep door te geven.
 


Last modified: 02-04-2013 12:12