I Türkoloji Qurultayın 90 illiyinə həsr olunmuş beynəlxalq konfrans:
TÜRKOLOJİ ELMİ-MƏDƏNİ HƏRƏKATDA ORTAQ DƏYƏRLƏR VƏ YENİ ÇAĞIRIŞLAR (II hissə)
21
informasiyanın təqdimində ümumi dili yaratmaq və təkmilləşdirmək, süni intellektin əsas
məsələlərindən sayılan təbii dillərin interfeysini, informasiya sistemlərinin modelləşdirilməsi kimi
məsələlərin həllini qarşısına məqsəd qoyur.
Hələ XX əsrin 60-cı illərində başlanmış kompüter dilçiliyin əsas problemləri nəzəri linqvistik
modellərin hazırlanmasına yönəlmişdi. Lakin sonralar tədqiqat obyekti daha geniş yöndə statistik
metodların tətbiqi ilə maşın təliminə, mətnlərin emalına, bir sıra evristik məsələlərin həllinə
istiqamətləndi [1].
Yuxarıda qeyd etdiyimiz kimi kompüter dilçiliyi süni intellektin probleminə daxil olan
insanın intellektual fəaliyyətində təbii dillərin riyazi modelini hazırlayan bir elm sahəsi olduğundan,
təbii ki, burada əsas vurğu müxtəlif təyinatlı kompüter sistemləri üçün dilin tətbiqinə və işlənməsinə
düşür ki, bununla əlaqədar onun əsas istiqamətləri aşağıda sadalanan məsələlərə yönəlir:
1. Təbii dilin emalı ( natural language processing). Burada mətnin sintaksis, morfoloji,
semantik təhlili nəzərdə tutulur;
2. Korpus dilçiliyi (buraya mətnlərin elektron korpuslarının yaradılması və istifadəsi
daxildir);
3. Elektron lüğətlərinin hazırlanması (tezaurus, avtomatik tərcümə lüğətləri, ensiklopedik,
vikipedia, orfoqrafik, izahlı, terminoloji, sahə lüğətləri, səhvlərin avtomatik aşkarı üçün spelling
lüğətləri və s. );
4. Mətnlərin avtomatik tərcüməsi sistemləri (məs.: Dilmanc, Google Translate və s.);
5. Mətnlərdən faktların məlumatların, informasiyaların- çıxarılması (fact extaction, text
mining);
6. Avtoreferatlaşdırma (avtomatic text summarization). Bu funksiya Microsoft word-ə daxil
edilmişdir;
7. Biliklər ( ekspert) sistemlərinin yaradılması;
8. Sual-cavab (dialoq) sistemlərinin yaradılması;
9. Simvolların optik tanınması ( OCR , FineReader proqramı);
10. Nitqin avtomatik tanınması;
11. Nitqin avtomatik sintezi ;
12. Məlumat axtarış sistemlərinin hazırlanması [34].
Təbii dillərin emalı, süni intellekt və riyazi dilçiliyin bir qolu olub, hər hansı bir təbii dilin kompüter
vasitəsilə analizi və sintezini öyrənir. Bir sözlə, nəzəri cəhətcə dilin emalı prosesində kompüter
üçün interfeys dili (insanla-kompüterin qarşılıqlı əlaqəsi) yaradılmışdır ki, bu o qədər də asan
məsələ deyildir. Təbii dilin dərki (anlamı) aləm haqqında zəngin bilik tələb edir ki, məhz süni
intellektin də əsas məsələlərindən “anlamı” kompüterə tanıtmaqdır. Məsələn Azərbaycan dilindəki
mətnin anlamı (dərki) söz sırasından, omonimlərdən, sinonimlərdən, durğu işarəsi və vurğudan
asılıdır. Bu baxımdan da kompüterin mətnlərin anlamı üçün sadalanan meyarların formal modelləri
hazırlanmalıdır.
Kompüter dilçiliyində aktual məsələlərdən biri də korpus dilçiliyidir. Korpus dilçiliyi (text
corpus) KD mətnlərin korpus və istifadəsinin yaradılmasını tədqiq edən tətbiqi linqvistikanın bir
bölməsidir. Bu termin 1960-cı ildən ümumiyyətlə, praktikada korpusların yaranması ilə meydana
gəlmişdir. Linqvistik korpus dedikdə müəyyən prinsiplərə və standartlara uyğun, mətnlərin
məcmusu başa düşülür. Korpusları yaratmaqda məqsəd müxtəlif səpkili linqvistik məsələlərin
(məsələn, mətnlərin qrafik və leksik qrammatik təhlili) həll edilməsidir.
Dünya dilçiliyində ilk böyük korpus 1960-cı ildə yaradılmış Braunov korpusudur. Bu
korpusun modelinə əsasən Zasorina tərəfindən bir milyon sözdən ibarət rus dilinin tezlik lüğəti
tərtib edilmişdir [2]. Kompüter texnologiyasının sürətli inkişafı böyük həcmli milli korpusların
hazırlanmasına təkan verdi. Belə səpkili korpuslardan İngiltərənin Birmingen Universitetində
yaradılan Britsh National Corpusu, keçmiş SSRİ-də isə A.P.Erşovun təşəbbüsü ilə hazırlanan rus
dilinin Maşın fondunu nümunə vermək olar. Hal-hazırda rus dilinin milli korpusu 300 milyon
sözişlətmədən ibarətdir [39].
Azərbaycan dilçiliyinə gəlincə isə Azərbaycan dilinin milli korpusu hələ də həllini gözləyən
məsələlərdən biri kimi qarşıda durur.
I Türkoloji Qurultayın 90 illiyinə həsr olunmuş beynəlxalq konfrans:
TÜRKOLOJİ ELMİ-MƏDƏNİ HƏRƏKATDA ORTAQ DƏYƏRLƏR VƏ YENİ ÇAĞIRIŞLAR (II hissə)
22
Kompüter dilçiliyi məsələləri bir çox türk xalqlarının dilçiliyində də önəmli yer tutur. Belə
ki, Qazaxıstan, Tatarıstan, Türkiyə və Azərbaycanda kompüter dilçiliyində aparılan tədqiqatların
qısa şərhini verək.
1. Qazaxıstanda kompüter dilçiliyinin əsasını qoyan K.B.Bektayev olmuşdur. Məhz, 2000-ci
illərin əvvəllərindən başlayaraq qazax dilinin kompüter vasitəsilə avtomatik emalı araşdırılmışdır.
Artıq dilin bütün səviyyələri (fonoloji, morfoloji, sintaktik) tədqiqata cəlb olunmuş, eləcə də bu
səpgidə qazax alimlərinin: A.A.Şaripbayevin, Q.T.Bekmanovanın, B.J.Erqeşin,
A.K.Qarabalayevanın əsərləri elm aləminə təqdim edilmiş, bundan başqa semantik şəbəkələrə
əsaslanan intellektual morfoloji analizator hazırlanmışdır (2012). Son illərdə böyük təcrübi
əhəmiyyət kəsb edən qazax dilinin bazası əsasında təbii dillərin mənbələrinin redaktəsi, bir sözlə
Spell Check sistemi hazırlanmış, qazax dilinin elektron lüğəti tərtib olunmuşdur. Bundan əlavə,
nitqin tanınması və sintezi üzərində xeyli işlər görülmüşdür. K.T.Kayupovanın rəhbərliyi ilə
SOYLEM elektron tərcümə sistemi (rus-qazax) yaradılmışdır. Məhz, bu sistem vasitəsilə mətnləri,
qrammatik və morfoloji qaydalara riayət olunmaqla rus dilindən qazax dilinə çevirmək mümkündür
[40].
2. Tatarıstanda Tatarıstan Elmlər Akademiyası və Kazan Dövlət Universitetinin birgə
əməkdaşlığı ilə fizika-riyaziyyat, texniki elmləri doktoru R.Q.Buxaraevanın rəhbərliyi ilə 1993-cü
ildə “Süni intellekt problemləri” adlı elmi tədqiqat laboratoriyası yaradılmışdır (laboratoriyanın
müdiri texniki elmlər doktoru D.Ş.Süleymanovdur). Laboratoriyanın yaradılmasında əsas məqsəd
Tatarıstan Elmlər Akademiyasının elmi tətbiqi proqramı çərçivəsində kompüter dilçiliyi sahəsində
fundamental tədqiqat işlərinin və tətbiqi məsələlərin, tatar dilinin dövlət dili kimi fəaliyyətinin,
kompüter təminatının aparılmasıdır.
3. Başqırdıstanda 2011-ci ildə kompüter dilçiliyi laboratoriyası yaradılmışdır.
Laboratoriyada mətnlərin avtomatik emalı, elmi nəşrlərin elekton korpuslarının hazırlanması kimi
məsələlər tədqiq olunur. 2014-cü ildə poetik korpus yaradılmışdır. Bu korpusa XX-XXI əsrin nəzm
əsərləri daxil edilmiş və 1.7 milyon sözdən ibarət olub 101 şairin 17 min şeirini əhatə edir.
Dünyada linqvistik təminatına görə rus dili poetik korpusundan sonra ikinci yeri tutur. Bundan
başqa 2012-ci ildə başqırd dilinin maşın fondu yaradılmışdır.
Son illərdə Türkiyənin Bilkənd Universitetində Kamal Oflazerin rəhbərliyi ilə türk dili
cümlələrinin morfoloji təhlili üzrə tədqiqat işləri aparılır. Eyni zamanda tatar və türk alimlərinin
birgə əməkdaşlığı ilə türk və tatar dillərinin morfoloji analizatorları hazırlanmış və bu
analizatorların köməyi ilə təbii dillərin söz formalarının tanınması üçün fonoloji, morfoloji
linqvistik təhlili və təsviri verilmişdir.
4. Azərbaycanda kompüter dilçiliyinə gəlincə isə, Azərbaycan dilçiliyində riyazi
metodlardan istifadə edilməsi XX əsrin 60-cı illərində M.S.Qarayevanın “Riyazi dilçilik tədrisdə”
adlı kitabının nəşri ilə başlanmışdı.
M.S.Qarayeva tərəfindən təməli qoyulmuş riyazi dilçiliyin artıq bütün qolları üzrə (maşın
tərcüməsi, Azərbaycan dilinin formal modellərinin hazırlanması, statistik metodla dilin tədqiqi)
tədqiqat işləri aparılmağa başlanmışdı. 1976-cı ildə tətbiqi dilçilik qrupu yaradılmış, maşın
tərcüməsi, formal modellərin hazırlanması, statistik metodla qədim abidələrin təhlili kimi məsələlər
tədqiqata cəlb olunmuşdur. V.İ.Pinesin rəhbərliyi altında qrup tətbiqi dilçilik məsələlərinə daxil
olan problemlərlə maşın tərcüməsi (sözün sintezinin formal təsviri, morfoloji analiz, mətnlərin
avtomatik sintaktik təhlili və sintezi, mətnlərin avtomatik redaktəsi və s.), formal modellərin
hazırlanması (Türk dilində fel şəkilləri quruluşunun modelləşdirilməsi, avtomatik sintezin modeli
və s.), statistik metodla qədim abidələrin statistik təhlili məşğul olundu. 1979-cu ildə
A.A.Axundovun “Riyazi dilçilik” [4] əsəri işıq üzü gördü, bundan əlavə onun bu yaxınlarda çapdan
çıxmış ”Struktur və riyazi dilçilik metodlarının türk dillərinə tətbiq edilməsinin bəzi xüsusiyyətləri
haqqında” [5, s.172-178] yazdığı məqalə böyük maraq doğurur.
Həmin dövrdə dilin riyazi-statistik metodlarının köməyi ilə tədqiqində Azərbaycan
dilçiliyində önəmli yer tutan tezlik lüğətləri tərtib oldu. Məlumdur ki, tezlik lüğətlərində sözlər və
onların mətndəki işlənmə tezliyinin göstəricisi qeyd olunur. Bu lüğətləri tərtib edərkən bir sıra
çətinliklər qarşıya çıxır. Birinci mətnləri elə seçmək lazımdır ki, kafi qədər ədəbi dil normalarını