Area of Interest: Documentation and text collection
Skills:
Competences:
Age Bracket: Adult Education
Time Commitment: 30 – 60 minutes
Affordability: €
Materials:
De handleiding voor het verzamelen van tekstvoorbeelden is ontworpen om je te helpen bij het verzamelen van een gevarieerd aanbod van authentiek tekstmateriaal om je lessen te verbeteren. Door systematisch tekstvoorbeelden te verzamelen, creëer je een waardevolle bron voor woordenschatverwerving, begrijpend lezen en cultureel begrip. Deze gids legt de nadruk op een digital-first benadering, terwijl het ook basisprincipes van lexicografie bevat om je te helpen een klein maar goed afgerond corpus van tekst op te bouwen om je lessen te verrijken.
BENODIGDE APPARATUUR
Voor deze digital-first benadering heb je nodig:
1. Laptop of desktopcomputer
2. Scanner (bij voorkeur draagbaar om onderweg te scannen)
3. Smartphone (voor snelle opnames en OCR-apps)
4. Externe harde schijf of cloudopslagabonnement
5. Tekstverwerkingssoftware (bijv. Microsoft Word, Google Docs)
6. Software voor spreadsheets (bijv. Microsoft Excel, Google Sheets)
Optioneel maar nuttig:
1. OCR (Optical Character Recognition) software of app.
2. Digitale camera (als de camera van je smartphone niet voldoende is).
AANBEVOLEN OCR APPS (opgesomd van gratis naar duur)
1. Google Drive (iOS/Android): Gratis met Google-account.
Voordelen: Naadloze integratie met Google Docs, automatische OCR voor PDF’s en afbeeldingen.
Nadelen: OCR-nauwkeurigheid kan inconsistent zijn.
2. Microsoft Office Lens (iOS/Android): Gratis.
Voordelen: Integreert goed met Microsoft Office, goed voor het scannen van documenten.
Nadelen: OCR-functies zijn beperkter in vergelijking met gespecialiseerde apps.
3. Tesseract (Open bron): Gratis.
Voordelen: Zeer aanpasbaar, ondersteunt veel talen.
Nadelen: Vereist technische kennis om op te zetten en effectief te gebruiken.
4. Adobe Scan (iOS/Android): Gratis met basisfuncties, abonnement voor geavanceerde functies.
Voordelen: Gebruiksvriendelijk, goede nauwkeurigheid, automatische cloudopslag.
Nadelen: Voor sommige functies is een abonnement nodig.
5. ABBYY FineReader (desktop/mobiel): Betaald met gratis proefversie, duurste optie.
Voordelen: Hoge nauwkeurigheid, geavanceerde OCR-functies, ondersteunt veel talen.
Nadelen: Duur voor gewone gebruikers.
We raden je aan om een OCR-oplossing te kiezen op basis van je specifieke behoeften, budget en technisch comfortniveau. Begin met de gratis opties en kijk welke het beste werken voor jouw taal voordat je investeert in een abonnement.
Expert recommendations:
LEXICOGRAFISCHE PRINCIPES OM TE OVERWEGEN
Het begrijpen van lexicografische basisprincipes is cruciaal bij het verzamelen van tekstvoorbeelden voor taalonderwijs. Deze principes helpen je om je voorbeelden effectiever te analyseren en te organiseren, wat leidt tot beter lesmateriaal en een beter begrip van taalgebruik. Door deze concepten toe te passen, kun je patronen in woordgebruik identificeren, begrijpen hoe context de betekenis beïnvloedt en nuances in taal herkennen die misschien niet direct duidelijk zijn. Met deze kennis kun je uitgebreidere en nauwkeurigere bronnen creëren voor je leerlingen, waardoor ze een authentieker en genuanceerder begrip van de doeltaal ontwikkelen.
Houd deze lexicografische basisprincipes in gedachten bij het verzamelen en ordenen van je voorbeelden:
1. Frequentie: Noteer hoe vaak bepaalde woorden of zinnen voorkomen in je voorbeelden.
2. Context: Noteer de context waarin woorden worden gebruikt, omdat deze de betekenis kan beïnvloeden.
3. Collocatie: Let op woorden die vaak samen voorkomen.
4. Register: Let op de mate van formaliteit in elke tekst.
5. Semantische velden: Groepeer verwante woorden uit je voorbeelden in thematische categorieën.
ETHISCHE OVERWEGINGEN
1. Auteursrecht: Zorg ervoor dat je geen auteursrecht schendt. Gebruik materialen in het publieke domein of onder fair use voor educatieve doeleinden.
2. Privacy: Anonimiseer altijd persoonlijke informatie in tekstvoorbeelden.
3. Toestemming: Als je data van individuen verzamelt (bijv. WhatsApp-gesprekken), vraag dan expliciete toestemming.
Available Languages:
Data Collection 2: Text SamplesVOORBEREIDING
Overweeg het volgende voordat je begint met het verzamelen van data: (of lees de gids Dataverzameling 1: Plan van Aanpak)
- Bepaal je doelstellingen: Op welk taalniveau, welke thema’s of taalkundige kenmerken richt je je?
- Identificeer je bronnen: Plan waar je de data gaat verzamelen (bijv. bibliotheken, websites, openbare ruimtes).
Misschien verzamel je je data liever terloops en neem je foto’s wanneer het je uitkomt. We raden je echter aan om bij te houden welke domeinen je behandelt om je “minicorpus” evenwichtig en gevarieerd te houden.
DATA VERZAMELEN
Digitale bronnen
- Websites: Gebruik de opslagfunctie van je browser of de screenshot-tool om webpagina’s vast te leggen.
- E-books: Kopieer, indien toegestaan, relevante passages of sla ze op als PDF.
- Sociale media: Screenshot gesprekken of posts (zorg ervoor dat je toestemming hebt als de inhoud privé is).
- Digitale kranten en tijdschriften: Sla artikelen op als PDF of gebruik de functie “Afdrukken naar PDF”.
Fysieke bronnen
- Boeken en gedrukte media: Gebruik je scanner om relevante pagina’s te digitaliseren.
- Ephemera (menukaarten, tickets, flyers): Scan of fotografeer deze items.
- Handgeschreven notities of brieven: Scan deze voor authenticiteit in handschriftvoorbeelden.
Teksten uit de echte wereld
- Openbare bewegwijzering: Foto’s van borden, posters of billboards.
- Menu’s: Vraag restaurants of je een menukaart mag houden om te scannen, of maak een duidelijke foto.
- Productverpakking: Maak de verpakking plat en scan, of maak duidelijke foto’s van tekst.
DATA VERWERKEN
- OCR: Tekst op basis van afbeeldingen omzetten naar bewerkbare tekst met OCR-software of -apps.
- Opschonen: Bewerk de OCR-uitvoer om eventuele fouten te corrigeren en consistent op te maken.
- Anonimiseren: Alle persoonlijk identificeerbare informatie verwijderen of wijzigen om de privacy te beschermen.