“Big data: imkanları, multidissiplinar problemləri və perspektivləri” I respublika elmi-praktiki konfransı
Bakı şəhəri, 25 fevral 2016-cı il
31
Böyük Verilənlər Analizinin Problemləri
Rəna Qasımova
AMEA İnformasiya Texnologiyaları İnstitutu, Bakı,
Azərbaycan
depart1@iit.ab.az
Xülasə
—
Big Data
mənbələrinin əsas hissəsini təşkil edən
strukturlaşdırılmamış və qismən strukturlaşdırılmış böyük
verilənlərin anazi ciddi problemlərdəndir.
Məqalədə böyük
verilənlər problemləri araşdırılır və onların analizi üçün bəzi
metodlar təhlil olunur.
Açar sözlər — verilənlər xəzinəsi, bulud, VBİS,, big data, big data
analytics, OLAP, Fast Data, Deep Insight.
I.
GİRİŞ
Zaman
keçdikcə
kompüter
proqramları
özünün
çoxcəhətliyi ilə real dünyaya daha da yaxınlaşır. Emal
olunmamış verilənlərin həcminin artması onların real vaxtda
analizinin zəruriliyi ilə birlikdə
Big Data Analytics
məsələsini
effektiv həll etməyə imkan verən alətlərin yaradılması və
tətbiqini zəruri edir. Bunun nəticəsidir ki, son zamanlar böyük
həcmdə informasiya massivlərinin toplanması, eyni zamanda
onların çox böyük sürətlə artması, həm akademik mühitdə,
həm də informasiya texnologiyaları (İT) sənayesində daha çox
diqqət cəlb etməyə başlamışdır. Miniwatts Marketing Group
analitik şirkətinin apardığı statistik hesabata əsasən 2015-ci
ilin birinci rübündə 3 milyarddan çox insan, yəni planetin
əhalisinin 42,4%-i İnternetə qoşulmuş və mobil rabitə
abunəçilərinin sayı 7,1 milyarda çatmışdır. 2020-ci ilə
İnternetə qoşulan qurğuların sayının 50 milyard olacağı
gözlənilir. 2012-ci ildə dünyada rəqəmsal informasiyanın
həcmi 2,7 zetabayt olmuşdur. 2015-ci ildə bu həcmin üç dəfə
və növbəti hər il üçün 40% artması proqnozlaşdırılır [1-5].
Rəqəmsal informasiyanın belə sürətlə artımı, verilənlərin
müxtəlifliyi, onların ötürülmə sürətinin yüksək artımı çoxsaylı
problemlərin yaranmasına səbəb olur. Qeyd edildiyi kimi,
artıq böyük verilənlərin (Big Data) saxlanılması, real-vaxt
rejimində emalı, analizi və idarə edilməsi problemlər
yaratmışdır. Bununla belə, böyük verilənlər (BV) problemi
hələ ilkin araşdırmalar səviyyəsindədir, yəni bu sahə hələ də
tam olaraq təhlil olunmayıb. Aparılan tədqiqatlar “Big Data”
anlayışını, onun mahiyyətini, müxtəlif xarakteristikalarını
təsnifləndirməyi, BV-nin mənbələrini, bu texnologiyanın
imkanlarını, problemlərini, təhlükəsizlik məsələlərini hərtəfli
tədqiq etməyə imkan verir. Tədqiqatlar göstərir ki, BV-in
emalı və analizi mükəmməl analitik texnologiyalar və alətlər
tələb edir [6-8].
II.
BİG
DATA
ANALİTİKA
Yüzlərlə terabayt və ekzabayt həcmində böyük verilənlərin
mövcud metodologiyalarla və ya alətlərlə toplanması, idarə
edilməsi, saxlanması və onlardan faydalı informasiyanın əldə
edilməsi ciddi problemdir.
Həm strukturlaşdırılmış, həm də
strukturlaşdırılmamış informasiya ilə işləmək, daha dərin
intellektul
analiz
aparmaq
və
analizin
nəticələrini
vizuallaşdırılmaq
BV-nin
analitikasının
əsas
məsələlərindəndir.
Verilənlərin həcminin artması və real zamanda onların
analizinə olan tələbat BV-nin ən əsas problemlərindən sayılan
böyük
verilənlərin
analitikası (Big Data Analytics)
istiqamətinin yaranmasına gətirib çıxarmışdır [9-11]. Big Data
Analytics müxtəlif tipli verilənlərdən ibarət olan böyük
verilənlər yığımının öyrənilməsi prosesidir. Yəni, böyük
verilənlərdən
gizli
qanunauyğunluqları,
naməlum
korrelyasiyaları və digər faydalı işgüzar informasiyanı
aşkarlamaq üçündür. Analitik verilənlər daha səmərəli
marketinqə, yeni gəlir almaq imkanlarına, müştərilərə xidmət
keyfiyyətinin yaxşılaşmasına, işin effektivliyinin artmasına,
təşkilatların rəqabət və digər biznes üstünlüklərinə gətirib
çıxara bilər.
Bu istiqaməti digər tətbiqlərdən fərqləndirən böyük həcm,
sürət
və
mürəkkəblik
kimi
xarakteristikalar
uyğun
texnologiyalar tələb edir. Buna görə də, bu gün Big Data
Analytics sahəsində əsas istehsalçılar xüsusi proqram-aparat
sistemlərini təklif edirlər: SAP HANA, Oracle Big Data
Appliance, Oracle Exadata Database Machine, Oracle
Exalytics Business Intelligence Machine, Teradata Extreme
Performance
Appliance,
NetApp
E-Series
Storage
Technology, IBM Netezza Data Appliance, EMC Greenplum,
HP Converged Infrastructure əsasında Vertica Analytics
Platform. Bununla yanaşı kiçik və yeni başlayan şirkətlərin də
böyük həcmli verilənləri səmərəli emal edən proqram-aparat
alətləri vardır. Onlara Cloudera, DataStax, Northscale, Splunk,
Palantir, Factual, Kognitio, Datameer, TellApart, Paraccel,
Hortonworks aiddir [12-14].
Verilənlər informasiya almaq üçün emal edilir, bu
informasiyanın həcmi o qədər olmalıdır ki, insan onu biliyə
çevirə
bilsin.
Həcm
böyük
verilənlərin
ən
əsas
xarakteristikasıdır. Həcmindən asılı olaraq BV üç qrupa
bölünür [15-18]:
Tez (sürətli) verilənlər (Fast Data) – onların həcmi
terabaytlarla ölçülür;
Böyük analitika (Big Analytics) – onların həcmi
petabaytlarla ölçülür;
Dərinə nüfuzetmə (Deep Insight) – onların həcmi
ekzabaytlarla və zetabaytlarla ölçülür.
Qruplar bir-birindən yalnız verilənlərin həcminə görə
deyil, həm də onların keyfiyyətli emalına görə fərqlənirlər.
Statistik rəqəmlərdə əks olunan verilənlərin həcmi bir daha