Opintojakson tiedot
Näytä opetus ja tentit
406253 Johdatusta luonnollisen kielen käsittelyyn (CLT120), 3 op 
Tunniste 406253  Voimassaolo 01.08.2012 -
Nimi Johdatusta luonnollisen kielen käsittelyyn (CLT120)  Lyhenne CLT120 
Laajuus3 op   
OpiskelumuotoPerusopinnot
LajiOpintojakso   
  ArvosteluYleinen asteikko 
  ei
    Voidaan suorittaa useastiei
Vastuuyksikkö Kieliteknologia 

Kuvaus
Kohderyhmä 

Opintojakso on pakollinen kieliteknologian ja yleisen kielitieteen pää- ja sivuaineopiskelijoille

 
Ajoitus 

ensimmäisen opiskeluvuoden keväällä

 
Tavoite 

Saada yleiskuva siitä, miten tekstikorpuksia voidaan käsitellä valmiiden ohjelmien (kuten Natural Language Tool kit, NLTK) avulla sekä totutella siihen, että itse voi enemmänkin vaikuttaa siihen, millaisia tuloksia saa

 
Sisältö 

Valmiin ohjelman (kuten NLTK:n) puitteissa havainnollistetaan esim. tekstiä sanojen muodostaman jonona, sanoja merkkijonona, jonon alkioiden osoittamista (indeksointia), sananmuotojen frekvenssien laskemista, tekstikorpuksen käyttöä, sanaparien (bigrammien) frekvenssejä, sanojen ehdollisia frekvenssejä viereisen sanan suhteen, kollokaatioiden tunnistamista, tekstigenrejä, sanojen annotaatiota (part of speech tags), annotoitujen korpusten tutkimista, digitaalisia leksikoita, sanalistoja, hukkasanalistoja, sanojen alamerkityksiä ja käsitetietokantoja (WordNet).

 
Oppimateriaali ja kirjallisuus 

verkkomateriaalia ja Stephen Bird, Ewan Klein, Edward Loper, Natural Language Processing with Python (vapaasti verkossa luettavissa).  (NLTK on avointa lähdekoodia ja kirjakin vapaasti verkossa luettavissa.)

 
Arviointi 

yleinen arvosteluasteikko

 
Suoritustavat 

harjoitustehtäviä

 
Vastuuhenkilö 

yliopistonlehtori

 


Meneillään oleva ja tuleva opetus
Ei opetusta WebOodissa

Tulevat tentit
Ei tenttejä WebOodissa