Що не так з Big Data | Блог Касперського

Нічого особистого!
Це наука, дитинко (насправді - немає)
З математикою не посперечаєшся. Правда ж?
Чорний ящик такий чорний
Щось потрапляє всередину, щось інше - назовні
Стакан наполовину порожній або наполовину повний?
Без упереджень?
Ласкаво просимо на темну сторону, Енакін
Чи не хочете брати участь? Не вийде

В останні кілька років всюди тільки й говорять, що про Big Data. Найчастіше в центрі уваги опиняються дивовижні переваги, які може принести використання цієї технології. Однак у всього цього є і зворотна сторона. Ми згодні з тим, що великі дані - це дуже багатообіцяюча технологія. Але не можна закривати очі на ряд можливих проблем, до яких запросто приведе повсюдне впровадження аналітичного ПО. В останні кілька років всюди тільки й говорять, що про Big Data

Нічого особистого!

Перший недолік, який зазвичай приходить в голову критикам великих даних, - це питання збереження власної конфіденційності.

Програми для аналізу великих даних працюють з величезними масивами інформації. Чим ці дані уникальнее, а отже, «приватність», тим більше цікаві висновки може з них зробити алгоритм. Іншими словами, особисті дані - це та сама «чарівна пил», на якій працює Магія великих даних. Нерідко цей пил розсипається і осідає в різних темних кутках, тим самим порушується чиясь конфіденційність.

Однак важливо розуміти, що на цьому можливі негативні наслідки не закінчуються: є цілий список менш очевидних проблем, тісним і заплутаним чином пов'язаних між собою.

Це наука, дитинко (насправді - немає)

Одна з проблем полягає ось у чому: люди вважають, що аналіз великих даних - це наука. Однак насправді аналітичні алгоритми куди ближче до інженерної справи, а не до науки, і це зовсім не одне і те ж.

Спробуйте порівняти фізику і ракети. Фізика - це, без сумніву, наука, в якій кожна гіпотеза досліджується і доводиться як теоретично, так і на практиці. І після цього висновки обов'язково видаються на суд наукового співтовариства, просто тому, що наука працює саме так.

Більш того, наука завжди відкрита - будь-який бажаючий може перевірити кожен закон і кожну теорему. І варто комусь виявити вагомий недолік в розрахунках або висунути нову, більш переконливу теорію, як вона тут же стає частиною активного обговорення, до якого залучаються всі метри наукового світу.

Ракети ж - це всього лише інженерно-технічні споруди, створені на базі певних фізичних знань. І, як ви напевно знаєте, якщо дизайн ракети недосконалий, це може з легкістю привести до неприємностей, що регулярно і відбувається.

З математикою не посперечаєшся. Правда ж?

З попереднього пункту є один важливий наслідок: помилкове відчуття непогрішності висновків комп'ютера. Ви ж не можете сперечатися з «математично обґрунтованим» висновком, чи не так?

Не знаючи математику, використану в алгоритмі, неможливо оскаржити справедливість зроблених розрахунків. В теорії провести незалежну оцінку могли б професійні математики - якби їм дали доступ. Але чи можуть вони це зробити в дійсності? Найчастіше немає.

Чорний ящик такий чорний

Навіть якщо у вас є знання, досвід і час, який ви готові витратити на перевірку того, як працює той чи інший алгоритм, вам навряд чи дадуть це зробити. У більшості випадків технології аналізу великих даних - це комерційна таємниця. Їх вихідний код закритий.

У своєму виступі «Зброя математичного поразки» математик і борець за права людини Кеті О'Нейл розповіла про те, як вона намагалася дослідити методику оцінки ефективності викладачів на основі Big Data, яку застосовують в США.

«Моя подруга, яка володіє середньою школою в Нью-Йорку, вирішила вивчити цей алгоритм. Це спеціалізована школа з поглибленим вивченням природничих наук і математики, тому вона була впевнена, що розбереться з алгоритмом. Вона запросила дані в міністерстві освіти - і знаєте, що вони сказали? «Ой, та ви нічого не зрозумієте, це ж математика!»

«Вона наполягала і нарешті отримала брошуру, а після показала її мені. Документ виявився занадто абстрактним для того, щоб прояснити ситуацію. Так що я відправила запит, спираючись на закон США про вільний доступ до інформації, але отримала відмову. Пізніше я дізналася, що науково-дослідний центр в Медісоні, штат Вісконсін, який розробляє цю аналітичну модель, уклав контракт, відповідно до умов якого ні у кого немає права заглянути всередину алгоритму ».

«Ніхто в міністерстві освіти Нью-Йорка не розуміє, як працює ця модель. Вчителі не знають, на якій підставі їм ставлять ті чи інші оцінки і що потрібно зробити, щоб їх підвищити, - їм ніхто нічого не може і не хоче пояснити ».

Щось потрапляє всередину, щось інше - назовні

Оскільки механізм роботи алгоритму непрозорий, неясно і те, які саме дані обробляються, а які - залишаються за бортом. Причому незрозуміло це не тільки нам з вами, а й оператору, який працює з програмою і діє відповідно до того, які вона робить висновки.

Тому одні й ті ж дані можуть вплинути на судження людини двічі: коли вони потрапляють в програму і коли оператор приймає рішення. Крім того, якась інформація може ніяк не вплинути на результат, якщо оператор подумав, що вона вже була використана в аналізі, а алгоритм насправді цього не зробив.

Наприклад, уявіть, що поліцейський потрапляє в кримінальний район. Алгоритм попереджає його, що людина перед ним з вірогідністю 55% зломщик. В руках у цієї людини підозрілу валізу. Але врахувала програма при аналізі цей факт? Виникає питання: чи робить наявність валізи цю людину більш підозрілим чи ні?

Слід також врахувати ще те, що у вихідних даних може міститися помилка або взагалі бути відсутнім інформація, критично важлива для прийняття правильного рішення.

Стакан наполовину порожній або наполовину повний?

Висновки програми також не є повністю прозорими і можуть бути невірно інтерпретовані. Одні і ті ж цифри різні люди зрозуміють по-різному. Наприклад, ймовірність в 30% - це багато чи мало? Відповідь залежить від безлічі різних факторів, про які ми можемо навіть і не підозрювати.

Що ще гірше, цей відсоток ймовірності може використовуватися в конкурентній боротьбі. Наприклад, навіть невисока вірогідність того, що та чи інша людина здатний вчинити злочин, звичайно, не відправить його у в'язницю, але цілком може закрити йому кар'єру в деяких установах.

Схожі алгоритми використовують в держслужбах США, щоб дізнатися, з якою ймовірністю здобувач може допустити витік. Так як за місце борються безліч людей, нікого не вчинить той факт, що деяким кандидатам відмовлять просто тому, що для них ця ймовірність виявилася трохи вище середнього.

Без упереджень?

Все сказане вище дозволяє сміливо говорити, що одне з найбільш розрекламованих переваг великих даних - неупередженість - насправді не працює. Рішення, прийняте людиною на базі розрахунків, виконаних створеним людьми алгоритмом, все одно залишається рішенням людини.

На нього могли впливати ті чи інші упередження, а могли і не впливати. Проблема в тому, що секретний алгоритм і незрозуміло які ввідні дані не дозволяють вам точно сказати, чи було рішення неупередженим. І змінити нічого не можна, адже порядок жорстко прописаний в програмному коді.

Ласкаво просимо на темну сторону, Енакін

Ще один недолік алгоритмів прогнозування - це здійснене пророцтво. Наприклад, поліція Чикаго використовує алгоритм , Який визначає потенційно небезпечних підлітків.

Поліцейські вирішують за таким підлітком «наглядати», відвідують його вдома і надають всякі інші «знаки уваги» з усією притаманною їм люб'язністю. Підліток розуміє, що поліція вже відноситься до нього як до злочинця, хоча він нічого такого не робив, і починає вести себе відповідно до очікувань. В результаті він дійсно стає членом банди.

Звичайно, проблема тут в більшій мірі в некоректній поведінці співробітників поліції. Але не будемо забувати про те, що це алгоритми дають їм «наукові підстави» для подібних дій.

Або, як зазначила Уїтні Меррілл в своїй доповіді «Прогнозування злочинів в світі великих даних», який прозвучав на Chaos Communication Congress 32 : «Поліцейський відправляється патрулювати, і алгоритм йому підказує, що в цьому районі він з ймовірністю 70% зустріне зломщика. Чи знайде він зломщика тільки тому, що йому сказали: «Ти знайдеш зломщика»? »

Чи не хочете брати участь? Не вийде

Якщо будь-яка урядова або комерційна організація впроваджує аналітичне ПЗ і вам це не подобається, ви не зможете просто сказати: «Мені набридло, я виходжу з гри». Ніхто не стане вас питати, чи згодні ви стати частиною такого дослідження чи ні. Більш того, вам взагалі навряд чи розкажуть, що ви в ньому участь.
Зрозумійте мене правильно: я не кажу, що всі ці недоліки повинні змусити нас відмовитися від просунутих аналітичних алгоритмів. Технології Big Data зараз на самому початку шляху - вони точно нікуди не подінуться і залишаться з нами надовго. Проте зараз саме час обміркувати всі ці проблеми, поки не стало надто пізно.

Нам потрібні добре захищені алгоритми з прозорими механізмами обробки даних. Необхідно допускати незалежних дослідників до вихідного коду, урядам слід створити відповідні закони. Також не завадить розповідати людям, які такі «математичні штуки» за ними доглядають. І всім учасникам процесу, звичайно ж, слід вчитися на вже зроблених помилках .

Правда ж?
Без упереджень?
Правда ж?
Ви ж не можете сперечатися з «математично обґрунтованим» висновком, чи не так?
Але чи можуть вони це зробити в дійсності?
Вона запросила дані в міністерстві освіти - і знаєте, що вони сказали?
Але врахувала програма при аналізі цей факт?
Виникає питання: чи робить наявність валізи цю людину більш підозрілим чи ні?
Стакан наполовину порожній або наполовину повний?
Наприклад, ймовірність в 30% - це багато чи мало?