OWL+

Ownership and Leadership: Pathway for (Endangered) Languages’ Use in School

Datasamling 2: Tekstuele Data


Area of Interest: Documentation and text collection

Skills:

Competences:

Age Bracket: Adult Education

Time Commitment: 30 – 60 minutes

Affordability:

Materials:

De hantlieding foar it sammeljen fan tekstfoarbylden is ûntwurpen om dy te helpen by it sammeljen fan in fariearre oanbod fan autentyk tekstmateriaal om dyn lessen te ferbetterjen. Troch systematysk tekstfoarbylden te sammeljen, kreëarrest in weardefolle boarne foar wurdskatwinning, begripend lêzen en kultureel begryp. Dizze gids leit de klam op in digital-first oanpak, wylst it ek basisprinsipen fan leksikografy befettet om dy te helpen in lyts mar goed ôfrûne korpus fan tekst op te bouwen om dyn lessen te ferrykjen.

NEDIGE APPARATUER
Foar dizze digital-first oanpak hast nedich:
1. Laptop of desktopkompjûter
2. Scanner (leafst draachber om ûnderweis te scannen)
3. Smartphone (foar flugge opnamen en OCR-apps)
4. Eksterne hurde skiif of cloudopslagabonnemint
5 ~~~ Tekstferwurkingssoftware (bgl. Microsoft Word, Google Docs)
6. Software foar spreadsheets (bgl. Microsoft Excel, Google Sheets)
Optysjoneel mar nuttich:
1. OCR (Optical Character Recognition) software of app.

2. Digitale kamera (as de kamera fan dyn smartphone net foldwaande is).

OANBEFELLE OCR APPS (opsomd fan fergees nei djoer)
1. Google Drive (iOS / Android): Fergees mei Surle-account.

Foardielen: Naadleaze yntegraasje mei Google Docs, automatyske OCR foar PDF’s en ôfbyldingen.

Neidielen: OCR-krektens kin ynkonsistint wêze.

2. Microsoft Office Lens (iOS / Android): Fergees.

Foardielen: Yntegrearret goed mei Microsoft Office, goed foar it scannen fan dokuminten.

Neidielen: OCR-funksjes binne beheinder yn ferliking mei spesjalisearre apps.

3. Tesseract (Iepen boarne): Fergees.

Foardielen: Tige oanpasber, stipet in soad talen.

Neidielen: Fereaske technyske kennis om op te setten en effektyf te brûken.

4. Adobe Scan (iOS / Android): Fergees mei basisfunksjes, abonnemint foar avansearre funksjes.

Foardielen: Gebrûksfreonlik, goede krektens, automatyske cloudopslach.

Neidielen: Foar guon funksjes is in abonnemint nedich.

5 ~~~ ABBYY FineReader (desktop / mobyl): Betelle mei fergeze proefferzje, djoerste opsje.

Foardielen: Hege krektigens, avansearre OCR-funksjes, stipet in soad talen.

Neidielen: Djoer foar gewoane brûkers.

Wy riede dy oan om in OCR-oplossing te kiezen op basis fan dyn spesifike behoeften, budzjet en technysk komfortnivo. Begjin mei de fergeze opsjes en sjoch hokker it bêste wurkjen foar dyn taal foardatst ynvestearret yn in abonnemint.

Expert recommendations:

LEKSICOGRAFYSKE PRINSIPES OM TE OERWAGEN
It begripen fan leksikografyske basisprinsipen is krúsjaal by it sammeljen fan tekstfoarbylden foar taalûnderwiis. Dizze prinsipes helpe dy om dyn foarbylden effektiver te analysearjen en te organisearjen, wat laat ta better lesmateriaal en in better begryp fan taalgebrûk. Troch dizze konsepten ta te passen, kinst patroanen yn wurdgebrûk identifisearje, begripe hoe’t kontekst de betsjutting beynfloedet en nuânses yn taal werkenne dy’t miskien net direkt dúdlik binne. Mei dy kennis kinst wiidweidiger en sekuerder boarnen kreëarje foar dyn learlingen, wêrtroch’t se in autinker en nuansearder begryp fan de doeltaal ûntwikkelje.

Hâld dizze leksikografyske basisprinsipen yn gedachten by it sammeljen en oarderjen fan dyn foarbylden:
1. Frekwinsje: Notearje hoe faak beskate wurden of sinnen foarkomme yn dyn foarbylden.

2. Kontekst: Skriuw de kontekst dêr’t wurden yn brûkt wurde, omdat dy de betsjutting beynfloedzje kin.

3. Kollokaasje: Let op wurden dy’t faak mei-inoar foarkomme.

4. Register: Let op de mate fan formaliteit yn elke tekst.

5 ~~~ Semantyske fjilden: Groepeer besibbe wurden út dyn foarbylden yn tematyske kategoryen.

ETYSKE OERWAGINGEN
1. Auteursrjocht: Soargje derfoar datst gjin auteursrjocht joust. Brûk materialen yn it publike domein of ûnder fair use foar edukative doelen.

2. Privacy: Anonimisearje altyd persoanlike ynformaasje yn tekstfoarbylden.

3. Tastimming: As dyn data fan yndividuen sammelet (bgl. WhatsApp-petearen), freegje dan eksplisite tastimming.

Language: Frisian

Translations:

Data Collection 2: Text SamplesDatu vākšana 2: teksta paraugiRecolha de dados 2: Amostras de textoDatainnsamling 2: TekstprøverDataverzameling 2: Tekstuele Data

Beskikbere talen: 

TARIEDING

Oerwaach it folgjende foardatst begjinst mei it sammeljen fan data: (of lês de gids Dataverzameling 1: Plan van Aanpak) 

Bepaal dyn doelstellings: Op hokker taalnivo, hokker tema’s of taalkundige skaaimerken rjochtet dy dy? 

Identifisearje dyn boarnen: Plan dêr’tst de data sammelje silst (bgl. biblioteken, websides, iepenbiere romten). 

Miskien sammelje je dyn data leaver op en nimme je foto’s as it je útkomt. Wy riede dy lykwols oan om by te hâlden hokker domeinen oftst behannelet om dy “minikorpus” lykwichtich en fariearre te hâlden. 

DATA SAMMELJE

Digitale boarnen 

Websites: Brûk de opslachfunksje fan dyn browser of de screenshot-tool om websiden fêst te lizzen. 

E-books: Kopieer, as tastien, relevante passaazjes of slaan se op as PDF. 

Sosjale media: Skreenshot petearen of posts (soargje derfoar datst tastimming hast as de ynhâld privee is). 

Digitale kranten en tydskriften: Sla artikelen op as PDF of gebrûk de funksje “Ofdrukke nei PDF”. 

Fysike boarnen 

Boeken en printe media: Brûk dyn scanner om relevante siden te digitalisearjen. 

Ephemera (menukaarten, tickets, flyers): Scan of fotografeer dizze items. 

Hanskreaune notysjes of brieven: Scan dy foar autentisiteit yn hânskriftfoarbylden. 

Teksten út de echte wrâld 

Iepenbiere beweiwizering: Foto’s fan buorden, posters of billboards. 

Menu’s: Freegje restaurants oftst in menukaart hâlde meist om te scannen, of meitsje in dúdlike foto. 

Produktferpakking: Meitsje de ferpakking plat en scan, of meitsje dúdlike foto’s fan tekst. 

DATA FERWURKJE 

UCR: Tekst op basis fan ôfbyldingen omsette nei bewurkbere tekst mei OCR-software of – apps. 

Opskjinne: Bewurkje de OCR-útfier om eventuele flaters te korrizjearjen en konsistint op te meitsjen. 

Anonimisearje: Alle persoanlik identifisearbere ynformaasje ferwiderje of wizigje om de privacy te beskermjen.