План управління даними (Data Management Plan, DMP) описує дані, які будуть отримані або створені під час дослідження проєкту; як керувати, аналізувати та зберігати; як обробляти та захищати дані під час та по завершенню проєкту. План управління даними допомагає відповідати вимогам фінансування та спільно використовувати дані.
Розробка плану управління даними є вимогою більшості організацій, що надають гранти на проведення наукових досліджень.
Інструменти для укладання DMP відрізняються залежно від країни походження та вимог грантодавця, наприклад: DMP Assistant (Канада), DMP Tool (США), DMPOnline (Великобританія, ЄС), Guidelines on FAIR Data Management in Horizon 2020 (ЄС).
Організація даних – ефективна робота з даними передбачає структуризацію файлів, документування процесу дослідження та метаданих.
Структуризація файлів потребує створення теки проєкту та окремих підпапок з джерелами публікації, статистичними (експериментальними) даними, результатами досліджень (програмний код, таблиці аналізу даних, текст роботи) та README-файлом.
Документування метаданих, методології аналізу і трансформації даних забезпечує розуміння даних та процесу дослідження усіма зацікавленими сторонами.
Метадані – інформація про оригінальні дані, що описують та допомагають класифікувати, упорядковувати та характеризувати дані. Ключовими елементами метаданих є визначення та позначення показників, одиниць їх виміру, короткий опис методології оцінювання та джерел даних.
Назви файлів мають бути унікальні, змістовні, не дуже довгі. Бажано використовувати стандартизовану форму для різних версій документів.
Рекомендовані елементи для назви файлів:
➠ назва проєкту або ім'я дослідник
➠ вид роботи або дата створення файлу (YYYYMMDD)
➠ версія документа (напр., V1, V1_2, V2)
➠ використання символів з наборів A-Z, a-z, 0-9, дефіс, підкреслення і крапка
Приклади: MultivariteAnalysis_Part2_20190221.docx, Protsiuk_Thesis_V1.pdf, UkrStat _2000-2019.xlsx
Для забезпечення машинного читання файлів використовують такі формати даних:
➠ Табличні дані – CSV замість XLSX
➠ Текстові дані – TXT або PDF замість DOC
➠ Бази даних – XML або SQLITE замість MDB, DBF, SQL
➠ Візуальні – PDF, TIFF, JPEG2000, MPEG-4, WAVE, AIFF
Збереження даних
Для збереження даних та їх відтворення на випадок пошкодження використовують резервне копіювання інформації.
Правила резервного копіювання 3-2-1:
➠ 3 копії (1 оригінал READ ONLY, 2 копії)
➠ 2 різні типи сховищ (жорсткий диск, USB, хмара)
➠ 1 копія на фізичному носії, 1 копія на е-диску
Спеціальні програми для управління проєктами та версіями файлів: GIT: GitHub, GitLab, BitBucket, Trello.
Платформи для зберігання та обміну файлами: Open Science Framework, Google Drive, Dropbox, Box.
Доступ до даних – можливість отримувати доступ або дані, що зберігаються в базах даних або в інших сховищах. Користувачі, які мають доступ до даних, можуть зберігати, отримувати, переміщувати чи маніпулювати збереженими даними, які зберігаються у відкритому доступі або на зовнішніх пристроях.
Для організації спільного, необмеженого або часткового використання даних, можна скористатися відкритими ліцензіями Creative Commons. Користувачі здобувають можливість вільно використовувати цифровий контент за згодою авторів та інших суб’єктів авторських прав.
Види ліцензій Creative Commons
Як обрати машиночитну ліцензію Creative Commons?
Пошук контенту з ліцензією Creative Commons:
➠ за допомогою creativecommons.org;
➠ за допомогою Розширеного пошуку Google / Додаткові налаштування / Права на використання.
Агентство з розвитку інфраструктури фондового ринку України (АРІФРУ)
Відкриті освітні реєстри даних МОН
Державна служба статистики України
Єдиний вебпортал використання публічних коштів
Національний банк України (НБУ)
Джерела даних міжнародних та державних організацій
Всесвітня організація охорони здоров’я (ВООЗ) / World Health Organization
Всесвітня організація туризму / World Tourism Organization
Відкрита карта впливу даних / Open Data Impact Map
Європейська комісія Євростат / Eurostat
Європейський Союз: портал відкритих даних / European Union Open Data Portal
Інститут Фрейзера Економічна свобода світу / Economic Freedom
Міжнародний валютний фонд (МВФ) / International Monetary Fund
Міжнародна організація праці (МОП) / International Labour Organization
Міжнародна асоціація офіційної статистики (МАОС) / International Association for Official Statistics
НАСА. Дані про Землю / NASA's Earth Science Data Systems
ООН. Конференція з торгівлі та розвитку / United Nations Conference on Trade and Development
ООН. Статистичні дані / UNData
Світовий банк / World Bank Open Data
Світова організація торгівлі (СОТ) / World Trade Organization
Світова статистика інтернет / Internet World Stats
Статистика про населення світу, природні ресурси, здоров'я, ЗМІ / Worldometers
США. Відкриті дані уряду / U.S. Data.gov
США. Міністерство охорони здоров'я та соціальних служб / U.S. Department of Health & Human Services
США. Національний центр екологічної інформації / National Centers for Environmental Information
ЮНЕСКО / UNESCO Institute for Statistics
BASE – пошуковик даних та наукової інформації.
Data.gov UK – проєкт уряду Великої Британії, який відкриває майже всі неособисті дані, отримані в службових цілях для безкоштовного повторного використання.
Google Dataset Search – пошуковий сервіс статистичних даних офіційних, неурядових та медіаорганізацій.
Google Data Studio – сервіс для візуалізації, аналітики та формування інформаційних панелей та звітів з різних систем джерел даних.
Аналіз даних та статистичне виведення на мові R. Курс Prometheus
Відкритий посібник з відкритих даних
Відкриті електронні реєстри. Курс ВУМ
Візуалізація даних. Курс Prometheus
Європейські проєкти на основі відкритих даних
Машинне навчання. Курс Prometheus
Міжнародні кейси використання відкритих даних
Навчальний курс про відкриті дані
Навчальний курс Відкриті дані для міста