Data Mining. Concepts and Techniques, 3rd Edition


HAN 08-ch01-001-038-9780123814791



Yüklə 7,95 Mb.
Pdf görüntüsü
səhifə15/343
tarix08.10.2017
ölçüsü7,95 Mb.
#3817
1   ...   11   12   13   14   15   16   17   18   ...   343

HAN

08-ch01-001-038-9780123814791

2011/6/1

3:12

Page 6

#6

6

Chapter 1 Introduction



Knowledge

Figure 1.3

Data mining—searching for knowledge (interesting patterns) in data.

appropriately named “knowledge mining from data,” which is unfortunately somewhat

long. However, the shorter term, knowledge mining may not reflect the emphasis on

mining from large amounts of data. Nevertheless, mining is a vivid term characterizing

the process that finds a small set of precious nuggets from a great deal of raw material

(Figure 1.3). Thus, such a misnomer carrying both “data” and “mining” became a pop-

ular choice. In addition, many other terms have a similar meaning to data mining—for

example, knowledge mining from dataknowledge extractiondata/pattern analysisdata

archaeology, and data dredging.

Many people treat data mining as a synonym for another popularly used term,



knowledge discovery from data, or KDD, while others view data mining as merely an

essential step in the process of knowledge discovery. The knowledge discovery process is

shown in Figure 1.4 as an iterative sequence of the following steps:

1.

Data cleaning (to remove noise and inconsistent data)

2.

Data integration (where multiple data sources may be combined)

3

3



A popular trend in the information industry is to perform data cleaning and data integration as a

preprocessing step, where the resulting data are stored in a data warehouse.




HAN

08-ch01-001-038-9780123814791

2011/6/1

3:12

Page 7

#7

1.2 What Is Data Mining?



7

Flat files

Databases

Data


Warehouse

Patterns


Knowledge

Cleaning and

integration

Selection and

transformation

Data

mining

Evaluation and

presentation

Figure 1.4

Data mining as a step in the process of knowledge discovery.




HAN

08-ch01-001-038-9780123814791

2011/6/1

3:12

Page 8

#8

8

Chapter 1 Introduction



3.

Data selection (where data relevant to the analysis task are retrieved from the

database)



4.

Data transformation (where data are transformed and consolidated into forms

appropriate for mining by performing summary or aggregation operations)

4

5.

Data mining (an essential process where intelligent methods are applied to extract

data patterns)



6.

Pattern evaluation (to identify the truly interesting patterns representing knowledge

based on interestingness measures—see Section 1.4.6)



7.

Knowledge presentation (where visualization and knowledge representation tech-

niques are used to present mined knowledge to users)

Steps 1 through 4 are different forms of data preprocessing, where data are prepared

for mining. The data mining step may interact with the user or a knowledge base. The

interesting patterns are presented to the user and may be stored as new knowledge in the

knowledge base.

The preceding view shows data mining as one step in the knowledge discovery pro-

cess, albeit an essential one because it uncovers hidden patterns for evaluation. However,

in industry, in media, and in the research milieu, the term data mining is often used to

refer to the entire knowledge discovery process (perhaps because the term is shorter

than knowledge discovery from data). Therefore, we adopt a broad view of data min-

ing functionality: Data mining is the process of discovering interesting patterns and

knowledge from large amounts of data. The data sources can include databases, data

warehouses, the Web, other information repositories, or data that are streamed into the

system dynamically.

1.3


What Kinds of Data Can Be Mined?

As a general technology, data mining can be applied to any kind of data as long as the

data are meaningful for a target application. The most basic forms of data for mining

applications are database data (Section 1.3.1), data warehouse data (Section 1.3.2),

and transactional data (Section 1.3.3). The concepts and techniques presented in this

book focus on such data. Data mining can also be applied to other forms of data (e.g.,

data streams, ordered/sequence data, graph or networked data, spatial data, text data,

multimedia data, and the WWW). We present an overview of such data in Section 1.3.4.

Techniques for mining of these kinds of data are briefly introduced in Chapter 13. In-

depth treatment is considered an advanced topic. Data mining will certainly continue

to embrace new data types as they emerge.

4

Sometimes data transformation and consolidation are performed before the data selection process,



particularly in the case of data warehousing. Data reduction may also be performed to obtain a smaller

representation of the original data without sacrificing its integrity.




Yüklə 7,95 Mb.

Dostları ilə paylaş:
1   ...   11   12   13   14   15   16   17   18   ...   343




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©www.genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə