Məhəbbət Mirzəliyeva, Kamilə Vəliyeva
8
gəlir. Bu səpkili korpuslara Rusiya Elmlər Akademiyasının 300
milyondan çox sözişlətmədən ibarət olan yuxarıda adını çəkdiyi-
miz rus dilinin milli korpusunu nümunə göstərmək olar. Əlbəttə
ki, yaradılan korpuslar leksik-qrammatik fenomeni özündə əks
etdirməli və hər bir korpusun özünəməxsus ilkin nişanı olmalı-
dır: tokenizasiya (orfoqrafik sözlərə bölmək), lemmatizasiya
(söz formasını lüğəvi formaya salmaq) və morfoloji təhlil
1
. Bun-
dan başqa, internetə daxil olan mətnlər çoxluğundan korpus kimi
istifadə etmək olar. Eləcə də, elmi mühitdə tanınmış vikipedia-
nın mətnlərini də korpus hesab etmək olar.
İnternetə 2006-cı ildə Tateba adı ilə daxil olmuş saytda
mənaca bir-birinə bağlı olan müxtəlif dillərin cümlələrini dəyiş-
mək və yenilərini daxil etmək mümkündür. Bu qəbildən olanlara
ingilis-yapon korpusunun adını misal çəkmək olar. Hal-hazırda
bu tipli 80 dildə təmsil olunan, 600.000 cümlədən ibarət olan
korpus fəaliyyətdədir. Belə korpuslar açıq sistem olduğundan
istifadəçi yeni cümlələri tərcüməsi ilə birlikdə korpuslara əlavə
edə bilər və istənilən parçanı (fraqmenti) özünə münasib yerə
köçürə bilər.
Dünyanın ən qabaqcıl korpuslarından biri də Çağdaş Ame-
rika-ingiliscəsi Korpusu (ing. Corpus of Contemporary American
English, COCA) 2000-2003-cü illərdə Mark Devis tərəfindən
yaradılmış “Time” jurnalının (1923-cü ildən başlayaraq) mətnlə-
rindən toplanmış elektron korpusdur. Müxtəlif janrları özündə
ehtiva edən 450 milyon sözdən ibarət ingilis dilinin Amerika
variantlı bu korpusu açıq sistemdir. Bu korpusa 160 min mətn
daxil edilmiş və 1990-cı ildən başlayaraq 2011-ci ilə qədər bu
korpusa hər il 20 milyon söz əlavə olunmuşdur. Maraqlıdır ki, bu
korpusdan ayda təxminən 10.000-dən çox istifadəçi faydalanır.
Bu korpus vasitəsilə:
– cəmiyyətin mədəni və sosial həyatındakı dəyişiklik-
lərlə əlaqədar olaraq söz və ifadələrin tezliyində baş
verən dəyişikliklərin;
1
https//ru.wikipedi.org
Maşın tərcüməsinin nəzəri problemləri
9
– dildəki morfoloji və qrammatik dəyişikliklərin;
– konstruksiyalardakı dəyişikliklərin;
– XX əsr ərzində sözlərin semantik dəyişikliklərinin iz-
lənməsi və tədqiqi mümkündür.
1
Azərbaycan dilçiliyinə gəlincə, bu sahədə Azərbaycan dil-
çilərinin səmərəli tədqiqatları mövcud olsa da, həllini gözləyən
məsələlər hələ də qalmaqdadır.
Türk dillərinin milli korpusları haqqında geniş məlumat
M.Ə.Mahmudovun “Kompüter dilçiliyi” əsərində
2
verildiyindən
biz burada Azərbaycan dilinin milli korpusunun hazırlanması
üçün görülmüş, görülən və görüləcək işlərin yalnız qısa açıqla-
ması ilə kifayətlənəcəyik.
Azərbaycan dilinin milli korpusunun yaradılması kompü-
ter dilçiliyinin qarşısında qoyulan ən vacib problemlərdən biri-
dir. Nəzərdə tutulan bu milli korpusa klassik bədii ədəbiyyatlar,
memuarlar, publisistik yazılar, elmi və dini ədəbiyyatlar, mətbu-
at materialları, KİV, şifahi nitq, elmi-kütləvi nitq, nəsr və nəzm
əsərləri, yazışmalar, dialektlər daxil edilməlidir. Bir sözlə, Azər-
baycan dilinin milli korpusu aşağıda göstərilən alt korpuslardan
təşkil oluna bilər:
– mətnlər alt korpusu;
– linqvistik təhlil alt korpusu;
– kütləvi informasiya vasitələri korpusu;
– paralel mətnlər alt korpusu;
– poetik mətnlər alt korpusu;
– dialekt mətnləri alt korpusu;
– tədris alt korpusu;
– şifahi alt korpusu;
– aksentologiya alt korpusu;
– multimedia alt korpusu.
3
Bir sözlə, Azərbaycan dilini təmsil edən istənilən mətni
1
https//ru.wikipedi.org
2
Mahmudov M.Ə. Kompüter dilçiliyi. B., 2013
3
Mahmudov M.Ə. Kompüter dilçiliyi. B., 2013, s.54-55
Məhəbbət Mirzəliyeva, Kamilə Vəliyeva
10
korpusa daxil etməklə, onun etibarlılığı bir daha artır.
Korpusun tətbiq sahələri genişdir, məsələn, bu dilin tədri-
sində, dilin öyrənilməsində (ana dilinin, eyni zamanda xarici
dilin) ən böyük fayda verə bilər. Hal-hazırda dilin mənimsənil-
məsi üçün insana qrammatika, lüğət və korpus lazımdır.
1
§2. Elektron lüğətlərin hazırlanması
Məsin həlli yollarından danışarkən ilk növbədə EHM
vasitəsilə lüğətlərin tərtibi mühüm vəzifə kimi qarşıda durur.
Elmi-texniki inqilab dövründə kibernetikanın bəhrəsi olan
elektron hesablayıcı maşınların (EHM) sürətlə inkişafı əqli əmə-
yin avtomatlaşdırılması üçün zəmin yaratmış və geniş perspek-
tivlər açmışdır. EHM vasitəsilə aparılan tədqiqatlar dilçiləri lek-
sikoqrafiyada mexaniki, yorucu, ağır zəhmət tələb edən, yəni
materialların qruplaşdırılması, növlərə bölünməsi, inventarlaşdı-
rılması, redaktə edilməsi kimi işləri görməkdən azad etdi.
Məhz son illərdə EHM-lərdən lüğətçilikdə istifadə olunma
dairəsi genişlənmişdir. Bu məqsədlə hələ 50-ci illərdə Avropada
elektron hesablayıcı maşın ilə təchiz olunmuş iki böyük labora-
toriya təşkil edilmişdir ki, bunlardan biri Bezan sondakı fransız
dilinin lüğətini öyrənən mərkəzin nəzdindəki leksikoloji analiz
laboratoriyası, digəri isə İtaliyadakı filoloji analiz üzrə dilçilik
mərkəzinin laboratoriyasıdır.
2
Bundan başqa Hollandiyada F. de
Tollenerin rəhbərliyi altında EHM-lərin köməyi ilə leksikoqrafik
tədqiqatlar aparılırdı
3
.
Rusiya elmi mərkəzlərinin əksəriyyətində EHM-in tətbiqi
ilə əlaqədar xeyli işlər görülmüşdür. Bu mərkəzlərdə hesablayıcı
texnika vasitəsilə müxtəlif tipli lüğətlər yəni mətndəki sözlərin
işlənmə tezliyini göstərən tezlik lüğətləri, tərkibində müəyyən
1
http://ruscorpora.ru(открыт
29 апреля, 2004 года),
http://polit.ru/article/2009/10/23/corpus/-
2
Штиндлова Й. Применение методов механизации и автоматизации в лексико-
логической работе за рубежом. Автоматизации в лингвистике. М., - Л., 1966.,
c.5-12
3
Yenə orada. s.10-11
Dostları ilə paylaş: |