Biblio terminologija,
29. julij 2013
―
© International scientific conference "Corpus linguistics"
Korpusno jezikoslovje je sodobna veja jezikoslovja, ki raziskuje značilnosti in zakonitosti naravnega jezika na podlagi obsežnega empiričnega vzorca besedil iz vsakdanje javne jezikovne rabe. V jezikoslovju je korpus oziroma besedilni korpus velika in strukturirana zbirka besedil, navadno grajena, hranjena in obdelana računalniško. Korpuse se uporablja za statistične analize pisanega in/ali govorjenega jezika, za preverjanje pojavitev besed in besednih zvez ali pa za potrditev lingvističnih pravil v določenem jeziku. So tudi nepogrešljivo in nadvse koristno orodje ob pripravi splošnih in tudi terminoloških slovarjev. Korpuse so že v predračunalniškem času izdelovali tudi ročno, taki so bili seveda prava redkost in skoraj čudež, danes pa so to praviloma računalniške zbirke podatkov shranjene na digitalnih medijih in nekatere tudi javno dostopne na spletu. Prvi digitalizirani besedilni korpus (Brown Corpus) vsebuje besedila v ameriški angleščini in je nastal že v šestdesetih letih preteklega stoletja. Korpusi druge generacije so povezani z razvojem tehnologije, ki omogoča njihovo delovanje in uporabo, in so nastali v sodelovanju raziskovalnih, univerzitetnih in pogosto tudi založniških okolij. Prosto dostopna reprezentativna referenčna jezikovna korpusa za slovenski jezik sta Nova beseda in Gigafida, nekaj pa je tudi za posebna strokovna področja specializiranih korpusov, vendar vsi niso javni ali pa za njih pogosto ne vemo (npr. dvojezični Evrokorpus - vzporedni korpus prevodov ali pa Vayna s četrt milijona besed iz 360 časopisnih člankov, ki so v času od aprila do avgusta 1998 obravnavali ti. "verbalne napade na JLA" (malo manj mladi se še spominjamo procesa JBTZ). O vseh naštetih sem na tem mestu pred časom že nekajkrat pisal. Dokaj bogat specializiran besedilni korpus imamo Slovenci tudi za področje bibliotekarstva, to je Korpus bibliotekarstva, ki je prosto dostopen na straneh tega bloga in o