Процес на извличане на данни

извличане

"Извличане на данни е част от процес на най-висок ранг: откриването на знанието. въпреки това, Извличането на данни е процес сам по себе си, който от своя страна се състои от няколко фази."

Предишна препоръка, прочетете:

Фази за извличане на данни

Както беше коментирано по-рано, Извличане на данни е част от процес с по-висок ранг: откриването на знанието. Извличането на данни обаче е процес сам по себе си, който от своя страна се състои от няколко фази.

Ще вземем за ориентир моделът CRISP (така нареченият междуиндустриален стандартен процес) Процес на извличане на данни.

Този модел предоставя описание на жизнения цикъл на проекта за копаене на данни, фазите на този проект, съответните задачи за всяка фаза и различните взаимовръзки между тях.

The жизнен цикъл на проект за извличане на данни се състои от шест фази: бизнес разбиране, разбиране на данни, подготовка на данни, моделиране, оценка и внедряване.

На това ниво на описание не е възможно да се идентифицират всички взаимоотношения, но е важно да се отбележи, че повтарящото се движение между различните фази е важно, за да се осигури общ преглед, тоест тъй като има зависимост между фазите и резултатите, получени в тях, след изпълнение на задачите на всяка фаза е необходимо да се провери тяхното въздействие върху останалите, за да се поддържа съгласуваността на процеса.

Могат да съществуват връзки между всяка фаза или задача от процеса на извличане на данни, вариращи в зависимост от целите на процеса, неговия контекст или интереса на потребителя към данните.

По подобен начин на коментираното по-горе, извличането на данни не приключва, след като решението бъде внедрено. Скритата информация, която е била открита по време на процеса, и самото решение може да предизвика нови въпроси, които водят до рестартиране на всички фази в процеса на подобрение, така че последващите процеси на добив да се възползват от предишния опит.

След това ще видим малка подробност за всяка фаза на процеса:

Бизнес разбиране

Това е фазата, с която се отваря процесът. Той е фокусиран върху разбирането на целите и изискванията на проекта, започвайки от бизнес перспективата.

След това е необходимо да придобиете тези знания за данните (повтаряме, винаги от бизнес гледна точка) и да ги превърнем в дефиниция на проблем за извличане на данни, като изготвим предварителен план според планираните цели.

Разбиране на данните

Фазата на разбиране на данните започва с първоначалното събиране на данни, за да продължите с дейности, които ви позволяват да се запознаете с тях, което ви позволява да идентифицирате проблеми с качеството на данните.

The качество на данните има няколко измерения: точност (което отразява случващото се), цяло (че пълните данни са в системата), шанс (достъпен при необходимост), уместност, ниво на детайлност и последователност (еднакви данни във всички области или системи), така че ще е необходимо да се провери как са данните във всяко от тези измерения.