Великі дані для Великий науки

Всезнаючий словник Merriam-Webster визначає big data, Великі Дані як an accumulation of data that is too large and complex for processing by traditional database management tools і відносить їх перша поява до 1980 року. Але це була, видно, тільки перша ластівка. А ось головним журавлем кавказьких народних казок був, мабуть, спеціальний випуск журналу Nature від 3 вересня 2008 року, присвячений феномену вибухового зростання обсягів і різноманіття оброблюваних даних і технологічних перспективи в парадигмі ймовірного стрибка «від кількості до якості».

Далі термін зажив своїм життям в більш жирної, а отже, і в більш поживною - куди там агар-агар або що там нині кладуть в чашки Петрі в порівнянні з інвестиціями в ІТ - середовищі. Але перше загальновизнане і всіма помічене застосування терміна big data відносилося саме до наукової інформації. Що змушує нас згадати ще один пов'язаний з наукою і з нинішнім етапом розвитку технологічної цивілізації термін, а саме big science, Велика Наука.

Згідно з тим же Merriam-Webster первопрімененіе терміна big science сходить до 1914 року. Але в тому році європейська цивілізація знайшла собі куди більш захоплююче і всеосяжне заняття, вчинивши першу в історії Велику Війну. Наука і хайтек в вигляді отруйних газів і радіокерованих катерів і аеропланів в тій війні відзначилися - докладніше див. Книгу Е.Белаш «Міфи Першої світової» - але, все ж, по справжньому перетнулися з військовою справою лише у Другій Великий Війні, яка для Росії , схоже, завжди буде просто Війною.

Так що про Великий Науці всерйоз заговорили лише в 1961-му році, коли термін цей вжив директор Ок-Ріджской Національної лабораторії Елвін М. Вайнберг в статті "Impact of Large-Scale Science on the United States". До цього часу радари і сонари, радіовзривателя і ручні рації вже зіграли свою роль у Другій світовій, а ядерні та термоядерні бомби і міжконтинентальні ракети забезпечували збереження миру Холодної війни, перемежається відлигами. Вайнберг тоді зрозумів, що знаходження США на вершині економічної піраміди планети залежить саме від Великої Науки, і довів це до еліти. Але це так, до слова.

А тепер Велика Наука інтернаціональна. Надто вже дороги сучасні наукові прилади. Занадто багато грошей треба, щоб заглянути в дали Всесвіту або в потаємні глибини матерії. Нинішнім трамвайних магнатам таке невідповідно до своїх достатків, та й урядам окремих країн теж (тому-то і марні ілюзії імпортозаміщення, що прирікає лише на стагнацію ...). Тому-то повноцінні наукові інструменти - такі, як Великий адронний коллайдер - і створюються міжнародним співробітництвом. І Росія - на щастя - у співпраці цьому брати найповнішу участь.

Ну, говорити про місцевий завод, виплавляти кристали для детекторів цього самого коллайдера, не хочеться. Замовлення виконано, успадковані від радянських часів платинові тиглі продані, колишні працівниці їздять до сусіднього міста, де трудяться сіделіцамі в базарних лабазах і ларьках. Поговоримо про хороше, про те, що знаходиться на перетині Великих Даних і Великий науки, про спільні роботи ЦЕРН і Науково-навчальної лабораторії методів аналізу великих даних ВШЕ , очолюваної Андрієм Устюжаніна .

Співпраця це ведеться з 2011 року. І направлено воно спочатку було на інструментальну сторону роботи з великими даними. Ми сьогодні звикли, що зберігання даних нічого не варто - домашній NAS про 30 терабайт зовсім не здається дуже великим; а пара полиць, забитих вінчестерами в коробочках - зайвими. Але це - в побуті. Де максимум обсягу - це фільм в форматі 4К. А експерименти в високоенергетичної фізики елементарних частинок породжують дійсно Великі Дані, які відповідають всім трьом V ...

Всезнаючий словник Merriam-Webster визначає big data, Великі Дані як   an accumulation of data that is too large and complex for processing by traditional database management tools   і відносить їх перша поява до 1980 року

Наукові дані можна зберігати в кошику і возити на велосипеді ...

І дані ці треба обробляти. А перед обробкою треба зберігати, і зберігати дбайливо. Надто вже багато сил і коштів витрачено на їх отримання. І тут до послуг фізиків два варіанти - дорогі (так-так - для тих обсягів даних, з якими мають справу фізики, дисковий простір дорого!) І швидкі диски або дешеві, але повільні стрічки. Здавалося б найпростіша завдання на оптимізацію. Але для таких обсягів вона зовсім не проста, і вимагає витончених систем машинного навчання.

І ось застосування цих систем дозволяє без зменшення швидкості роботи системи заощадити сорок відсотків дискового простору , Що з огляду на обсяги GRID - мережі дата-центрів учасників експериментів CERN - дає пристойну економію бюджету. Але це хоч і дуже добре і дуже корисно, але ближче до господарської сторін справи (що цілком за профілем ВШЕ). Але далі вже починається сама Велика Наука, що переходить в фантастику. І займаються їй Науково-навчальної лабораторії методів аналізу великих даних ВШЕ у співпраці зі Школа аналізу даних (ШАД) Яндекса.

На майданчику онлайн-сервісу Kaggle ними оголошений нині дивовижний конкурс Flavours of Physics: Finding τ → μμμ . Мета його - розробити методи обробки даних, які дозволять виявити розпад тау-лептона на три мюона. Розпаду цього ніхто поки не спостерігав, але теоретики вважають, що він повинен мати місце ... Автор фізику вчив до того, що в ММІБе називається хімією, про вироби знав тільки як вони кріпляться і підключаються, і до якої температури їх гріти, перш ніж підсмажити батарею Першингов з супостатскім містечком заодно, і тому не буде робити вигляд, що розуміє, про що йде мова.

Але цього і не потрібно і від учасників конкурсу. Їм потрібні лише знання програмування і навички роботи з даними. Ну і інтерес застосувати ці дані до вирішення фізичних проблем, підігрітий (бачите, які різноманітні значення має слово «підігріти» ...) призами, оголошеними на конкурсі. Але це, втім, зокрема. А справа-то схоже йде про внесення змін до парадигму наукового пізнання, які можна порівняти з тими, що внесло поява Великий Науки.

Ну, як воно було у давнину. Спостерігали за падаючими яблуками, кидали ядра і кулі з Пізанської вежі, вважали удари пульсу за які хитнеться маятник. Будували теорії, створюючи або залучаючи для них математичний апарат. Тобто ділилися на улюблених Нобелівським комітетом експериментаторів, і осоружних теоретиків (щодо яких для більшої знущання придумували «ефект Паулі»). А тепер все змінилося. Експеримент дає стільки даних, що сам експериментатор виділити в них жаданий ефект не в змозі. Тоне в інформації як лемовскій розбійник диплом.

І на сцену виходить той, хто здатний ці дані знайти. Хоча не є ні теоретиком, ні експериментатором. ( «... ми постаралися зробити так, щоб учасникам не доводилося розбиратися в тонкощах власне експерименту »- говорить Андрій Устюжанін.) Тут знову пригадується сатирична фантастика, Робет Шеклі, Mindswap,« Обмін розумів »в канонічному перекладі:« - Що ж, - сказав Вальдец, - а тепер розглянемо зворотний випадок. Про теорії пошуків я знаю геть усе. Отже, мені немає потреби знати що-небудь про Кеті. »...

Але це так, жарт. А серйозним є те, що Велика Наука, схоже відтепер і надалі не зможе обійтися без Великих Даних. Ну і без формуються машинним навчанням методів роботи з ними. І оптимізм вселяє те, що в нашій країні ведуться гідні роботи в цьому напрямку.

Навигация сайта
Новости
Реклама
Панель управления
Информация