Проблемот на науката со големата количина на податоци

Од:

На модерната наука изгледа информации и излегуваат и од ушите. Од машините за секвенцирање на геноми кои се способни да ја читаа човековиот ДНК (или околу 1,5 гигабајти податоци) за половина час до забрзувач на честичките, како што е Големиот Хадронов колајдер во ЦЕРН (кој создава близу 100 терабајти информации на ден), истражувачите се преплавени со информации. Но во ова доба на големи количини на податоци науката има голем проблем: не прави речиси ништо ниту пак поттикнува нешто за размена, анализа и интерпретација на огромните количини податоци кои истражувачите ги собираат.

Науката е архетипска емпириска работа. Теоретичарот на физиката и познат забавувач Ричард Фејнман, вака го опишува ова: „Не е важно колку е убава вашата теорија, не е важно колку сте вие умни. Ако тоа не се совпаѓа со експериментот, тогаш е погрешно“. Ова е во основа принципот на науката уште од нејзините најрани денови. Без упорното астрономско набљудување на Тихо Брахе, данскиот великодостојник од шеснаесетиот век, Јохан Кеплер не би одлучил дека планетите се движат во елиптична орбита, а Исак Њутн не би има основа на која ќе го гради неговиот универзален закон за гравитацијата.
Во доцниот деветнаесети и на почетокот на дваесетиот век, без генијалните експерименти на Алберт Микелсон и Едвард Морли, во кој тие ја демонстрираат константноста на бзрината на светлината и отсуството на наводен етер (што довело најверојатно до најпознатиот негативен резултат на сите времиња), Алберт Ајнштајн не би имал критичка емпиријска основа за неговата специјална теорија на релативноста.

Затоа да ги славиме собирачите, разменувачите и аналитичарите на податоци кои се клучни за продолжениот прогрес на науката од која сите сме зависни – и која пречесто ја земаме здраво за готово. Но дури и кога остатокот од општеството, од бизнисите до економиите и од новинарството па се до уметноста, поттикнати од моќта на податоците, светот на истражувањата, баш иронично, не прави доволно за да ја искористи моќта на информациите. Свесноста за огромната количина на информации е поважна отколку да имате неколку пентабајти на вашиот тврд диск, а науката греши во три клучни области:

Информацијата е моќ

Прво, моќта на информацијата расте кога таа се разменува. За да се уверите во ова доволно е да погледнете во трансформациските ефекти на интернетот и на светската мрежа, и пред тоа на другите информациски технологии, од преносливите машини за чукање до телеграфот. Но научниците сеуште одбиваат да ги споделуваат нивните откритија од истражувањата, дури и меѓу себе. Вистина е дека тоа сепак се случува на некои полиња, како што се геномијата и астрономијата, но во многу други, меѓу кои и во молекуларната биологија и во хемијата, норматив е тајноста.

Пред неколку години присуствував на тркалезна маса во голема американска истражувачка организација. Тема на дискусијата беше размената на информации помеѓу научниците, и како да се поттикне и спроведе тоа. Но отпорот, дури и помеѓу искусните и просветлени луѓе кои беа присутни таму, беше олигледен. Заради суштинската  колаборативна работа во која тие се вклучени, академсите истражувачи често се поколаборативни, а помалку сопственички настроени во споредба со нивните бизнис колеги. Но честто се случува и обратното: како вработен во комерцијална организација, не би ни помислил да тврдам дека поседувам некаква информација и да ја задржувам од моите колеги на начин како што тоа рутински го прават научниците.

Не би ја криел информаијата од мојата конкуренција, и тука е финтата. Научната заслуга им припаѓа на авторите кои објавуваат во влијателни научни списанија, а не на оние кои обезбедуваат инфопрмации (или експериментални примероци или софтвер алгоритми или било кој друг вид прилози кои луѓето можат да ги искористат за некој истражувачки процес). Со заслугите доаѓа и пристапот до ретки ресурси кои научниците по природа ги бараат, имено финансии и вработувања. па се додека обезбедувате објави во врвни списанија низ светот, секој е конкурент. Ако институциите и финансиерите треба да даваат повеќе заслуги за отворената размена на истражувачки податоци, научничкиот прогрес би се забрзал и сите ќе имаме корист од тоа.

Научноста на податоците

Второ, поврзан проблем е што се уште стремиме да гледаме како генерирањето на податоци и анализите како да се обичен вовед во некаква реална научничка работа, а тоа е да се генерираат согледувања и теории. Ако прифатиме дека ова е логичен став – податоците кои не се поврзани со објаснувачка теорија се често бескорисни. Но како што покажуваат историјските примери кои претходно ги спомнав, ни требаат и опсервации и анализи – теориите без податоци се чисти шпекулации, а не наука.

И се додека светот го прифаќа концептот за научник за податоци, самата наука допрва треба да ги стгне. Воопшпто не е невообичаено за некој истражувач да изарчи некаква многу успешна кариера специјализирајќи се за проучување на само еден предмет, колку и да е тоа нешто добро познато или сосема непознато: срцето, овошните мушички или невронот кај златната рипка маутнер. Но сосема е невобичаено да се специјализирате во функционална улога на собирање на податоци, анализи и нивно претставување. Токму ова го прават информациските научници, и потребни ни се повеќемина такви во истражувањата. Но за баксуз, организациските структури на науката – од универзитетските оддели и тела за финаисрања до академските заедници и списанија – се натрупани во рахиви според предметноста, ихибирајќи ја функциската специјализација која ги вкрстува овие траиционални дисциплинарни граници.

Академиците, вработените и посебно финансиерите, треба активно да ги подржуваат функциските специјалисти, посебно научниците за податоци, и да овозможат веќе да не биде невообичаено за истражувачите да станат експерти во науката за пдоатоци наместо да се специјализираат за темна материја или фулерени.

Унапредени алатки

На крајот, на истражувачите им се потребни унапредени алатки за управување, интерпретација и размена на нивните податоци. Денес повеќето од нив имаат подобар софтвер дома за да си ги средуваат своите музички или фото колекции, отколку што го имаат во лабораториите да го прават истото со податоците од истражувањата. Причината зошто не го прават тоа не може да не се забележи: постојат околу седум милиони истражувачи во светот, а тоа е околу 0,1 проценти од севкупното население. Од гледна точка на некоја голема софтверска компанија, тие претставуваат релативно незначајна бројка. Но економки и културно, тие се несразмерно важни за добробитта на сте нас и заради тоа тие заслужуваат подобар третман.

Ова е област во која комерцијалните организации (меѓу кои е и Диџитал сајанс, онаа која јас ја водам) треба да одиграат важна улога. Светските финансии за истражувања достигнуваат до еден трилион долари. Самата издавачка научна индустрија вреди десетици милијарди долари годишно, и верувам дека индустријата за научен софтвер набрзо ќе ја надмине. Има многу научници, развивачи на софтвер и претприемачи кои стремат да создадат подобри алатки со цел да се овозможи следен бран на научни откритија од кои сите зависиме. Без разлика као ќе дојдеме до нив, тие ја заслужуваат нашата поддршка.

Ваерд – Вашингтон

Би можело да ве интересира

Севернокорејските војници распоредени во Русија станаа зависни од интернет

Горан Наумовски

Македонија има најбрз интернет во регионот

ЦУК: Куче паднало во шахта и ги изгризало оптичките кабли, без интернет биле „Филип Втори“ и Поликлиника „Букурешт“

А1он

(ВИДЕО) Дел од профилите кои регрутираат граѓани за големата интернет измама за пари веќе не се активни, струмичката СмартКлик пријавила злоупотреба на името

Александар Тодески

(ВИДЕО) Масовна измама на интернет во Македонија, се нуди брза заработка

Александар Тодески

Ковачевски: Во Северна Македонија 83 отсто од домаќинставата имаат пристап до широкопојасен интернет

Горан Наумовски