ІІІ етап ІОІТ-2017
Інформаційні системи та БД

Прочитати більше
Відповіді до ІІІ етапу Інтернет-олімпіади з інформаційних технологій "ІОІТ-2017" у номінації "Інформаційні системи та бази даних" (аналіз даних)
Максимальна кількість балів300
Завдання 1
Портал BuzzFeed News 20 жовтня 2016 року опублікував статтю "Гіперпартійні сторінки у Facebook публікують помилкову та обманливу інформацію з тривожною частотою" (ориг. "Hyperpartisan Facebook Pages Are Publishing False And Misleading Information At An Alarming Rate", https://www.buzzfeed.com/craigsilverman/partisan-fb-pages-analysis). Аналіз звітів BuzzFeed показав, що три великі сторінки у Facebook правого спрямування опублікували неправдиву або обманливу інформацію 38% часу впродовж аналізованого періоду, а три великі ліві сторінки зробили це майже в 20% повідомлень.
У файлі до цього завдання (1.xls/1.xlsx) подано результати перевірки вказаних у повідомленнях фактів (fact-check), використані при написанні вищевказаної статті, у вигляді таблиці формату Excel. Автори статті проаналізували дані правих, лівих та незалежних авторитетних сторінок політичного спрямування у Facebook аби визначити поточний стан проблеми.
Для проаналізованих публікацій зазначено ідентифікатори сторінки та публікації, їх спрямування (ліве, праве чи незалежна авторитетна преса), назва, адреса публікації в Facebook, дата публікації, тип публікації (текст, посилання, зображення чи відео), рейтинг (переважно неправда, переважно правда, факти відсутні або змішані правда та брехня), стосується публікація дебатів чи ні, кількість поширень, реакцій та коментарів цієї публікації в Facebook.
На основі цих даних дайте відповідь на наступні питання.
Дані якого періоду проаналізовані у вищевказаній статті?
Вкажіть початкову дату періоду
5 балів
ДД
.
ММ
.
РРРР
Коментар автора
Для отримання відповіді достатньо відсортувати повідомлення за датою публікації.
Дані якого періоду проаналізовані у вищевказаній статті?
Вкажіть кінцеву дату періоду
5 балів
ДД
.
ММ
.
РРРР
Коментар автора
Для отримання відповіді достатньо відсортувати повідомлення за датою публікації.
Яку кількість публікацій було проаналізовано?
5 балів
2282
Коментар автора
Для отримання відповіді достатньо виділити перший стовпець та в рядку стану переглянути кількість значень і відняти від цього числа 1 (рядок заголовку). Також аналогічне значення можна було отримати, переглянувши останній рядок з даними та знов-таки відняти від цього числа 1.
Повідомлення з якої сторінки у Facebook із проаналізованих було найбільше поширене (share) користувачами в цій соціальній мережі?
10 балів
Коментар автора
Для отримання відповіді достатньо відсортувати повідомлення за спаданням кількості поширень та переглянути назву сторінку в першому рядку даних таблиці.
У скільки разів кількість поширень (share) найбільш поширеного переважно правдивого повідомлення перевищує кількість поширень (share) найбільш поширеного переважно НЕправдивого повідомлення?
Округліть число до найближчого цілого за правилами математики.
10 балів
10
Коментар автора
Для отримання відповіді достатньо відсортувати повідомлення за спаданням кількості поширень та за допомогою фільтру залишити лише переважно правдиві та переважно неправдиві повідомлення. Потім слід поділити кількість поширень першого переважно правдивого повідомлення на кількість поширень першого переважно неправдивого.
Найбільший показник правдивості повідомлень (відношення кількості переважно правдивих повідомлень до загальної кількості повідомлень) серед проаналізованих сторінок має:
20 балів
Коментар автора
Для отримання відповіді слід створити на основі наданих даних зведену таблицю, заголовки рядків якої - назви сторінок, заголовки стовпців - рейтинги повідомлень, а значення - кількість рядків таблиці. Після цього достатньо поділити для кожної сторінки значення в стовпці переважно правдивих повідомлень на значення в стовпці підсумків.
Який відсоток повідомлень із зображеннями не містить жодних фактів?
Округліть відсоток до найближчого цілого за правилами математики.
13 балів
62
Коментар автора
Для отримання відповіді слід за допомогою фільтру залишити тільки повідомлення із зображеннями та зафіксувати кількість отриманих рядків. Потім слід залишити тільки повідомлення із зображеннями без фактів та зафіксувати кількість отриманих рядків. Після цього відповідь - це відношення другого числа до першого у відсотках.
Електронна адреса *
Завдання 2
Біткойн — електронна валюта, концепт якої був озвучений 2008 року Сатосі Накамото, і представлений ним 2009 року, базується на самоопублікованому документі Сатосі Накамото.
Bitcoin не має централізованого управління та емітентів. Транзакції із цифровим підписом між двома вузлами передаються до всіх вузлів мережі peer-to-peer, а самі дані про переміщення коштів зберігаються у розподіленій базі даних. Для запобігання можливості трати чужих грошей або використання своїх коштів двічі використовуються криптографічні методи.
В поданому Вам файлі (2.xls/2.xlsx) подано інформацію про динаміку вартості біткойна в доларах США впродовж періоду його існування.
На основі цих даних дайте відповідь на наступні питання.
Файл-розв'язання можна завантажити тут.
В який день за наявний в наборі даних період вартість біткойна була найбільшою?
5 балів
ДД
.
ММ
.
РРРР
Коментар автора
Для отримання відповіді слід відсортувати дані за спаданням ціни біткойна в доларах та переглянути дату показника в першому рядку даних таблиці.
В який день загальна вартість біткойнів вперше подолала позначку в 100 мільярдів доларів?
5 балів
ДД
.
ММ
.
РРРР
Коментар автора
Для отримання відповіді слід відсортувати дані за датою та за допомогою фільтру залишити тільки рядки, загальна вартість біткойнів в якому вища за 100000000000. У якості відповіді обираємо дату з першого рядка даних таблиці.
Яку кількість діб тривав найдовший період монотонного зростання вартості біткойна?
В якості відповіді надайте найбільшу кількість послідовних діб, послідовність вартостей біткойна для яких є строго зростаючою. Врахуйте в тому числі дні початку та завершення такого періоду.
20 балів
19
Коментар автора
У комірці E2 вмістимо формулу =ЕСЛИ(B2>B1;E1+1;1) і протягнемо її до останнього рядка таблиці. Для кожного рядка вона вказуватиме скільки триває зростаюча послідовність, що закінчується поточним рядком. Тоді відповідь - максимальне значення в стовпці E.
Яким був найбільший перепад (амплітуда зміни) вартості біткойна впродовж 10 послідовних діб в доларах США?
Відповідь округліть до цілого числа за правилами математики.
20 балів
1665
Коментар автора
У комірці F2 вмістимо формулу =МАКС(B2:B11)-МИН(B2:B11) і протягнемо її до останнього рядка таблиці. Для кожного рядка вона вказуватиме амплітуду зміни ціни біткойна за наступні 10 діб. Тоді відповідь - максимальне значення в стовпці F.
Електронна адреса *
Завдання 3
Обробка природної мови — загальний напрямок інформатики, штучного інтелекту та математичної лінгвістики. Він вивчає проблеми комп'ютерного аналізу та синтезу природної мови. Стосовно штучного інтелекту аналіз означає розуміння мови, а синтез — генерацію розумного тексту. Розв'язок цих проблем буде означати створення зручнішої форми взаємодії комп'ютера та людини.
В поданому Вам файлі формату pdf (3.pdf) вміщено уривок з поеми Івана Котляревського "Енеїда".
На основі вмісту цього файлу дайте відповіді на наступні запитання.
Файл-розв'язання можна завантажити тут.
Відомо, що повна версія "Енеїди" Котляревського містить близько 7000 слів української мови. А скільки різних слів використав автор для написання наданого Вам уривку?
Різними вважайте слова, що відрізняються в написанні принаймні однією літерою (без урахування регістру). Наприклад, слова Терпець і терпець - однакові, слова приклад і прикладу - різні. Розділові знаки (коми, крапки, тире тощо) частинами слів не вважаються.
25 балів
957
Коментар автора
Для одержання відповіді слід скопіювати текст з файлу pdf у документ Word та видалити всі відмінні від літер та пробілу символи за допомогою заміни з увімкненими знаками підстановки [!а-яіїєА-ЯІЇЄ ] на порожній рядок. Тепер замінимо пробіл на знак абзацу (^p). В кожному рядку тепер окреме слово поданого уривку. Перенесемо цей список в таблицю Excel та за допомогою інструменту Дані - Прибрати дублікати залишимо унікальні значення. Виділимо отриманий список. Відповідь - кількість значень в рядку стану табличного процесора.
Знайдіть відсоткову частку голосних літер в загальній кількості літер поданого уривку.
Округліть відсоток до найближчого цілого за правилами математики.
15 балів
41
Коментар автора
За допомогою засобу "Виділення при читанні" інструменту пошуку та заміни виділимо голосні літери, здійснюючи пошук за знаками підстановки: [аеоуиіїяєюАЕОУИІЇЯЄЮ]. Фіксуємо кількість знайдених символів, яку відображає Word.
За допомогою засобу "Виділення при читанні" інструменту пошуку та заміни виділимо всі літери, здійснюючи пошук за знаками підстановки: [а-яіїєА-ЯІЇЄ]. Фіксуємо кількість знайдених символів, яку відображає Word.
Відповідь - відношення першого числа до другого у відсотках.
В якій кількості рядків поданого уривку кількість літер "о" перевищує кількість літер "а"?
25 балів
120
Коментар автора
Копіюємо текст з pdf-файлу в текстовий документ Word як "просто текст". Текст буде розміщено в декілька рядків.
Після цього замінимо символ абзацу на символ $ (такий символ відсутній в уривку).
Спочатку замінимо всі символи, відмінні від о, О та $ на порожній рядок, і здійснимо зворотню заміну символа $ на символ абзацу. Копіюємо отриманий результат в таблицю Excel (стовпець C) та повертаємось до вихідного положення за допомогою Ctrl+Z.
Тепер замінимо всі символи, відмінні від а, А та $ на порожній рядок, і здійснимо зворотню заміну символа $ на символ абзацу. Копіюємо отриманий результат в стовпець поряд в таблицю Excel (стовпець D).
Тепер достатньо вивести в стовпці E 1, якщо довжина рядка в стовпці C більша за довжину рядка в стовпці D, а в решті випадків - 0.
Відповіддю є сума значень в стовпці E.
Скільки разів у поданому уривку вжито слово "я"?
10 балів
13
Коментар автора
За допомогою засобу "Виділення при читанні" інструменту пошуку та заміни виділимо всі слова "я", здійснюючи пошук за знаками підстановки: <[яЯ]>. Фіксуємо кількість знайдених символів, яку відображає Word.
Електронна адреса *
Завдання 4
Електронна пошта (англ. email, скорочення від electronic mail) — спосіб обміну цифровими повідомленнями між людьми з використанням цифрових пристроїв, таких як комп'ютери та мобільні телефони, що робить можливим пересилання даних будь-якого змісту (текстові документи, аудіо-, відеофайли, архіви, програми тощо).
В поданому Вам файлі (4.xls/4.xlsx) вміщено перелік електронних адрес користувачів деякого Інтернет-ресурсу.
Здійсніть аналіз наданої інформації, даючи відповіді на нижче вказані запитання.
Файл-розв'язання можна завантажити тут.
Яка кількість користувачів ресурсу користується поштою gmail?
5 балів
163
Коментар автора
За допомогою інструменту Дані - Текст за стовпцями слід розділити наданий стовпець за розділювачем @. Отримаємо імена скриньок та домени.
Тепер за допомогою функції COUNTIF або зведених таблиць легко визначити кількість скриньок в домені gmail.com.
У скільки разів кількість користувачів ресурсу, що користуються поштою hotmail, перевищує кількість користувачів з електронною поштою в домені ukr.net?
Округліть частку до цілого числа за правилами математики.
10 балів
3
Коментар автора
За допомогою інструменту Дані - Текст за стовпцями слід розділити наданий стовпець за розділювачем @. Отримаємо імена скриньок та домени.
Тепер за допомогою функції COUNTIF або зведених таблиць виводимо кількості скриньок для кожного домену.
Відповідь - відношення кількості скриньок доменів hotmail.uk і hotmail.com до кількості скриньок домену urk.net.
Зазвичай листи між електронними скриньками одного домену доставляються дещо швидше, аніж листи між скриньками різних доменів, оскільки не потребують переміщення між мережами різних провайдерів електронної пошти. Якщо припустити, що кожен з користувачів системи, наведених у списку, надішле повідомлення усім іншим користувачам, який відсоток листів не потрапить за межі одного домену?
Округліть відсоток до цілого числа за правилами математики.
20 балів
20
Коментар автора
За допомогою інструменту Дані - Текст за стовпцями слід розділити наданий стовпець за розділювачем @. Отримаємо імена скриньок та домени.
Тепер за допомогою функції COUNTIF або зведених таблиць виводимо кількості скриньок для кожного домену.
Якщо листи не виходять за межі домену, то достатньо підрахувати кількість листів всередині кожного з доменів = n*(n-1), де n - кількість скриньок відповідного домену.
Відповідь - відношення суми отриманих значень до загальної кількості листів (N*(N-1), де N - загальна кількість скриньок) у відсотках.
Якщо вважати, що ім'я скриньки - це ім'я та прізвище користувача, розділені крапкою, яка кількість імен містить одночасно літери a та o?
15 балів
47
Коментар автора
Одержати відповідь можна легко за допомогою функцій SEARCH та ISERROR. Деталі - у файлі-розв'язку.
Електронна адреса *
Завдання 5
Організація олімпіад - складна справа. Окрім складання завдань та перевірки робіт учасників складнощів додає ще й розподіл робіт між членами журі, позаяк кожен з них має свої вподобання щодо офісних додатків, а образити нікого не хочеться.
Отож, у файлі (5.xls/5.xlsx) Вам подано результати опитування членів журі на предмет того, яке із завдань в якій мірі вони хотіли б перевіряти, а також кількісний розподіл журі між чотирма додатками.
Вважається, що кожен член журі повинен бути розподілений на перевірку рівно одного завдання.
Дайте відповіді на наступні запитання.
Файл-розв'язання можна завантажити тут.
Нехай кожному членові журі було призначено певне завдання для перевірки. Мірою цього завдання вважатимемо те число, яке поставив член журі навпроти цього завдання. Далі вважатимемо, що міра загального задоволення журі розподілом робіт між ними дорівнює сумі мір отриманих ними завдань (від 0 до 5).
Якої найбільшої міри задоволення можна досягти, відповідно до побажань журі?
25 балів
174
Коментар автора
Відповідь легко отримати за допомогою надбудови Пошук рішення. Деталі - у файлі-розв'язку.
Перевірку якого завдання буде доручено членові журі Pedro Lee?
7 балів
Коментар автора
Відповідь легко отримати за допомогою надбудови Пошук рішення. Деталі - у файлі-розв'язку.
Якщо врахувати, що Jean Rose, Brandon Cannon та Pedro Lee повинні перевіряти завдання з Excel, на скільки одиниць зменшиться найбільша можлива міра загального задоволення в порівнянні з раніше розглянутою?
25 балів
5
Коментар автора
Відповідь легко отримати за допомогою надбудови Пошук рішення. Деталі - у файлі-розв'язку.
Достатньо до умов додати три умови для завдань, які перевіряють Jean Rose, Brandon Cannon та Pedro Lee.