Очищенням даних

Процес приведення машиночитаних даних до робочого, впорядкованого стану, називається очищенням даних.

Чистими можна вважати дані, які:

- не містять помилок та одруківок;

- мають уніфікований формат: дати зазначаються у єдиному форматі (наприклад, 2021-10-12), числа мають однаковий роздільник для десяткових знаків (або кома, або крапка, в одному наборі даних не має зустрічатись два різних роздільника десяткових знаків);

- пишуться однаково, без граматичних помилок (однаковий варіант напису адреси, номеру телефону, ПІБ людини тощо);

- містять лише один запис в одній комірці, і кожен запис займає лише одну комірку (тобто у наборі немає об’єднаних комірок).

Приклад брудних даних:

Дата	Місто	Показник
2021-08-05	Краматорськ	1 678 910
01-06-2021	Кроматорск	1,574,258
1 липня 2021	Черв. Лиман	1 млн 256 тис 327
2021.08.07	Ліман	1.854.126
2021/09/05	Лиман	3 258 524

З брудними даними неможливо працювати, створювати інфографіку, робити вибірку та фільтрування. В них присутній;

- часовий вимір (дати), однак неможливо вибудувати часову лінію, оскільки всі дати мають різний формат;

- географічний вимір (назва міста), однак дані неможливо агрегувати за змінною «Місто», оскільки кожен раз назва міста пишеться інакше;

- числовий показник (грошовий вимір), однак здійснювати арифметичні операції неможливо, оскільки всі числа записані у різних форматах.

Ті самі дані після очищення

Дата	Місто	Показник
2021-08-05	Краматорськ	1678910
2021-06-01	Краматорськ	1574258
2021-07-01	Лиман	1256327
2021-08-07	Лиман	1854126
2021-09-05	Лиман	3258524

Чисті дані можна фільтрувати, сортувати, здійснювати з ними арифметичні операції, візуалізувати та будувати на їх основі сервіси.

Найпростіший спосіб очистити дані – використати вбудовані функції електронної таблиці (наприклад, Excel або Google Spreadsheets). Для багатьох випадків неправильно поданих даних досить використання команди пошуку і заміни (Find & Replace). Так можна прибрати зайві пробіли у значеннях, помилкові символи, та інші прості патерни.

Для об’єднання вмісту двох комірок можна використати формулу CONCATENATE, наприклад, =CONCATENATE(A2," ",A3) виведе вміст другої і третьої комірок в першій колонці, розділивши їх пробілом.

Для розділення комірок до різних колонок використовуючи певний символ-роздільник, наприклад, кому, можна використати формулу SPLIT: =SPLIT(A2,", ",false)

Якщо масив даних занадто великий, або дані занадто «брудні», простими засобами електронної таблиці очистити дані практично неможливо, в такому разі доречна програма Open Refine.

OpenRefine – інструмент для очищення даних, створений на Java, виконується локально і працює всередині веббраузера, який запускається автоматично.

Open Refine дозволяє:

- виявляти та виправляти помилки в даних, зокрема – знаходити різні варіанти написання назв і дат та приводити їх до єдиного вигляду;

- знаходити та видаляти зайві символи та комбінації символів у даних, в тому числі за допомоги регулярних виразів;

- розбивати стовпці за певним роздільником або об’єднувати дані із певним роздільником;

- фільтрувати дані за кількома показниками;

- виділяти та видаляти стовпці, змінювати структуру файлу;

- конвертувати дані в різні формати;

- здійснювати базовий аналіз даних;

- надсилати запити до різних АРІ (наприклад, геокодувати адреси);

- зберігати всі трансформації даних в окремому проекті та застосовувати їх до інших документів.

Оптимізація структури даних

Дані, які користувачу здаються зручно і прозоро впорядкованими, часто потребують докорінної структурної реорганізації. Не кожна людиночитабельна таблиця є добре машинооброблюваною. Тобто таблиця, орієнтована на людське сприйняття є скоріше способом представлення даних, ніж охайно впорядкованим набором даних.

Машина – ретельний і сумлінний, але простий виконавець. Тому, організація даних, представлених для машинної обробки має бути одноманітною, навіть якщо з людської точки зору спрощено виглядатиме.

Для даних, організованих у таблицю існує просте правило: кожна колонка є змінною, кожен рядок – окремим спостереженням. Такі дані називаються «охайними» (tidy), їх можна легко і швидко трансформувати, аналізувати і візуалізувати.

Таблиці, створені для людей, далекі від дотримання цього правила. Наприклад, таблиця показує користувачу динаміку доходів населення, користувачу зручно порівнювати цифри за роками і за областями, вона компактна: одиниці виміру винесено до заголовку. Але вона малопридатна до машинної обробки. Якщо уявімо, що років і областей більше, її буде неможливо сортувати та складно фільтрувати. Крім того, назву змінної «рік» ніде, крім як в заголовку не вказано.

Доходи населення за регіонами у 2018-2020 роках, млн. грн.

Область	2017	2018	2019
Вінницька	94417	114480	129787
Дніпропетровська	245778	307844	352532
Донецька	141340	174771	197830
Луганська	49342	58880	65859

Та ж таблиця, приведена до охайної форми, може гірше сприйматися людиною, зате її можна сортувати і фільтрувати, в неї легко додати дані за іншими областями і роками.

Область	Рік	Доходи
Вінницька	2017	94417
Вінницька	2018	114480
Вінницька	2019	129787
Дніпропетровська	2017	245778
Дніпропетровська	2018	307844
Дніпропетровська	2019	352532
Донецька	2017	141340
Донецька	2018	174771
Донецька	2019	197830
Луганська	2017	49342
Луганська	2018	58880
Луганська	2019	65859

Проблеми зі структуруванням даних найчастіше виникають через нерозуміння того, що саме у наборі даних є змінними. Змінними є усе, що може набувати значень, як кількісних, так і якісних, а не лише, те що вимірюється в процесі спостереження. Змінні, значення яких відомі наперед, називаються фіксованими (наприклад, стать переважно може мати два значення: «чоловіча» та «жіноча»), на противагу вимірюваним.

Варто розташовувати колонки фіксованих змінних на початку таблиці, а вимірюваних – наприкінці.

П’ять основних проблем неохайних чи погано структурованих наборів даних:

Заголовки в колонках містять значення, а не назви змінних;
Різні змінні записані в одну колонку;
Змінні записані як в рядках, так і в колонках;
Різні типи блоків спостережень записані в тій самій таблиці;
Один блок спостереження записано у кількох таблицях.

Правильна структура даних дозволяє аналітику або комп’ютеру легко виділяти потрібні змінні, оскільки надає стандартний спосіб структурування набору даних.

Принципи охайно структурованих даних:

1. Один фіксований код для відсутніх значень;

2. Ідентифікатори об’єктів мають бути записані відповідно до однієї системи;

3. Однакова структура даних в різних файлах;

4. Один загальний формат для всіх дат, (переважно РРРР-ММ-ДД);

5. Змінні у колонках, об’єкти (спостереження) у рядках;

6. Заповнюються всі комірки в таблиці, навіть коли дані відсутні;

7. Одне значення в комірці. Наприклад, у комірку може бути записана вага, «45 кг» але краще записати «45», а одиниці виміру винести в назву колонки, наприклад «вага_кг». А ще краще, назвати колонку «вага», а одиниці виміру винести в окремий словник даних.

8. Створити словник даних – окрему таблицю, в якій пояснюються змінні. Це буде частиною метаданих – дані про дані.

Такий словник може містити:

- точну назву змінної, як це вказано в наборі даних («технічну» назву змінної);

- читабельну назву змінної, що може використовуватися, наприклад, для візуалізації даних;

- розлогий опис змінної;

- одиниці виміру;

- очікувані максимальні та мінімальні значення змінних, якщо такі є.

9. Первинні дані не мають містити в комірках таблиці підрахунків чи формул.

10. Не виділяти дані за кольором чи типом шрифта.

11. Зберігати дані у простих текстових форматах (таких як CSV). У разі використання кирилиці, чи інших символів, що виходять за межі ASCII («базової латиниці») краще використовувати кодування UTF-8.

Метадані

У Постанові Кабінету Міністрів України № 835 «Про затвердження Положення про набори даних, які підлягають оприлюдненню у формі відкритих даних» структура набору даних визначається як сукупність метаданих, що містить опис складу (елементів) набору даних, їх формат, параметри та призначення. Тобто структура набору даних – це перелік усіх змінних, що у ньому є, з розшифруванням значення та зазначенням типу даних для кожної змінної.

Для опису таких даних потрібен словник – окрема таблиця метаданих. У ній описано значення кожної зі змінних, їх тип (текст, число, дата тощо), одиниці виміру, мінімальні і максимальні значення, якщо такі є. До словника набору даних також варто включити усі необхідні примітки, уточнення, розшифровки тощо. Структура набору даних – це ключова таблиця набору відкритих даних. Вона описує кожну колонку вихідної таблиці в розрізі п’яти атрибутів: назва (name), заголовок (title), опис (description), тип даних (datatype) й вимога заповнення (required).

name – це машиночитана назва колонки в вихідній таблиці;

title – стислий людиночитаний заголовок колонки;

description – опис значень у колонці й інструкції стосовно її заповнення;

datatype – тип даних колонки. Він відповідає формату в електронних таблицях Microsoft Excel, LibreOffice Calc і Google Таблицях. Тип даних загально визначає, які значення можуть бути внесені до комірок, наприклад, рядки тексту, дати, числа, посилання тощо. Також визначены типи колонки вказується при імпорті набору даних для подальшого його опрацювання.

Назва	Призначення	Приклад значення
string	Запис рядків тексту	Східне міжрегіональне управління Міністерства юстиції (м. Харків)
date	Запис рядків дат	2021-07-15
integer	Запис цілих чисел	1658
decimal	Запис десяткових дробів	12.17
anyURI	Запис посилань в мережі інтернет	https://dn.gov.ua/storage/app/sites/1/ publicinfo/LegalAct/1071-21.pdf

required – це вимога заповнення. Якщо зазначено «Хибність (false)», то колонка може містити відсутні значення (пропуски). Як правило, вони позначаються «null». У протилежному випадку, кожна комірка має бути заповненою й містити конкретне значення (true). Ця таблиця також має бути охайно структурована, наприклад:

name	title	description	datatype	required
identifier	Ідентифікатор	Ідентифікатором нормативно правового акта (НПА) є номер та рік видання, що розділені знаком дефіс. Наприклад: 258/5-2019.	string	true
type	Вид	Розпорядження	string	true
title	Назва	Назва (заголовок) нормативно-правового акта	string	true
dateAccepted	Дата ухвалення	Дата ухвалення нормативно-правового акта у форматі ISO 8601 (рррр-мм-дд). Наприклад: 2019-07-06.	date	true
number	Номер	Номер НПА. Наприклад: 196	integer	true
natureOrder	Характер розпорядження	Характер розпорядження. Наприклад: освіти і науки, релігії, охорони здоров'я, транспорту і зв'язку	string	true
issued	Дата оприлюднення	Дата оприлюднення нормативно-правового акта	date	true
valid	Чинний від	Дата набрання чинності нормативно-правовим актом у форматі ISO 8601 (рррр-мм-дд)	date	true
changed	Внесення змін	Внесення змін до нормативно правового акту. Наприклад: розпорядження голови ОДА від 2021-05-24 № 254	string	false
status	Статус	Статус може мати одне зі значень: чинний, втратив чинність, втратив чинність частково, не набрав чинності, дію призупинено	string	true
basis	Підстава втрати чинності або часткової втрати чинності	Підстава втрати чинності або часткової втрати чинності. Наприклад: розпорядження голови ОДА від 2021-05-24 № 254	string	false
publisherName	Назва видавника	Повна назва видавника. Наприклад: департамент охорони здоров'я	string	true
publisherIdentifier	Ідентифікатор видавника	Якщо видавник є юридичною особою, вказати його код ЄДРПОУ. Наприклад: 01234567. У іншому випадку зазначити null	integer	true
url	Посилання	Посилання на оприлюднений в мережі Інтернет документ (URL)	anyURI	true
registrationNumber	Номер державної реєстрації	Номер акта за державним реєстром. Наприклад: 123/12345. Якщо державна реєстрація не передбачена, вказати null	string	false
registrationDate	Дата державної реєстрації	Дата державної реєстрації акта форматі ISO 8601 (рррр-мм-дд). Якщо державна реєстрація не передбачена, вказати null	date	false
registratorPrefLabel	Назва реєстратора	Назва суб’єкта, що провів державну реєстрацію НПА. Наприклад: східне міжрегіональне управління Міністерства юстиції (м. Харків). Якщо державна реєстрація не передбачена, вказати null	string	false
registratorIdentifier	Ідентифікатор реєстратора	Код ЄДРПОУ суб’єкта, що провів державну реєстрацію НПА. Якщо державна реєстрація не передбачена, вказати null	integer	false
odPortalUrl	Гіперпосилання на вебпортал відкритих даних	Гіперпосилання на вебпортал відкритих даних, якщо інформація з нормативно-правового акту оприлюднена у формі відкритих даних. У іншому випадку вказати null	anyURI	false

Зі словником даних користувачі отримають чіткі пояснення щодо даних з якими вони працюють. Оскільки інформація, яка публікується, може містити специфічні терміни, позначення чи класифікації, які відомі лише розпоряднику інформації. Метадані завантажуються на Єдиний державний вебпортал відкритих даних (далі – Портал) разом з набором даних у спеціальний розділ, який призначений для завантаження словнику даних.

Для створення структури набору даних можна скористатись онлайн-сервісом Data Package Creator, створеним міжнародною організацією Open Knowledge Foundation. Він дає змогу генерувати структуру набору даних у машиночитаному форматі JSON, на основі файлу і даними, а також зазначити для кожної змінної тип даних і опис.

Якщо при створенні нового набору не буде завантажена структура, механізми Порталу запропонують згенерувати її вручну, буде запропонована проста вебформа, у яку можна додати перелік усіх змінних, що є в наборі даних, а також їхній опис.