Кой сваля пиратски научни статии?

Превод: Магделия Шугова

сп.“Българска наука“ брой 89 (2016 г.)

С настъпването на пролетта в Иран през миналия месец, Мейсам Рахими седна пред екрана на университетския компютър и веднага се сблъска със следния проблем: как да получи достъп до научните статии, които му бяха нужни? Той трябваше да напише предложение за изследване за докторската си степен по инжeнерство в университета „Амир Кабир“ в Техеран. Проектът му обхваща едновременно управлението на операциите и поведенческата икономика, така че имаше много широко поле за покриване.

Всеки път, когато откриваше резюмето на подходяща статия обаче, той се сблъскваше с невъзможността да получи достъп до нея, без да заплати нужната сума. „Амир Кабир“ заема водещо място сред изследователските университети в Иран, но поради интернационалните санкции и икономическите затруднения, достъпът до научни издания е ограничен. За да прочете статия за приложна и изчислителна математика, публикувана през 2011 г., Рахими трябва да плати на издателя Elsevier 28 долара. Статия за изследване на операциите от 2015 г., публикувана от базираната в САЩ компания „INFORMS“, би му струвала 30 долара.

Той погледна списъка с резюмета и изчисли, че купуването на всичките статии би му струвало 1000 долара само този месец – горе-долу толкова, колкото е размерът на месечните му разходи за издръжка. Вероятно би му се налагало да чете толкова изследователски статии и в идните години. Рахими бе ядосан. „Издателите не дават нищо на авторите, така че защо да получават нещо повече от малка сума за управлението на изданието?“


РЕКЛАМА:

***

Много академични издатели предлагат програми, които да осигурят достъп до научни статии на изследователи от по-бедните страни, но само една такава програма, Shared Link, изглеждаше подходяща за статиите, които Рахими търсеше. Тази програма изисква той да се свърже лично с всеки един от авторите, за да получи линкове за достъп до техните материали, а такива линкове стават неизползваеми 50 дни след публикацията на статията. Изборът изглеждаше ясен: Рахими трябваше или да се откаже от докторската си степен, или да се сдобие нелегално с копия от статиите. И така, подобно на милиони други изследователи, той се обърна към Sci-Hub – най-големия сайт за пиратска научна литература в света. Не почувства вина. В неговите очи, „скъпоструващите издания могат силно да забавят развитието на науката.“

Издателите имат съвсем различна гледна точка.“Аз съм напълно „за“ университетския достъп, но не подкрепям кражбата“ гласи туит на директора на университетския достъп за Elsevier – Алиша Уайс, от 14-ти март по време на ожесточена публична дискусия относно Sci-Hub. “Има много законни начини за получаване на достъп”. Туитът включва и линк към списък от инициативи за достъп на 20 компании, включително Share Link.

 

Но все повече изследователи от цял свят се обръщат към Sci Hub, който съдържа 50 милиона статии, като броят им се увеличава непрестанно. През предходните на март 6 месеца от Sci Hub са свалени около 28 милиона статии. Повече от 2,6 милиона заявки за изтегляне са дошли от Иран, 3,4 милиона – от Индия, 4,4 милиона – от Китай. Статиите се отнасят за всякакви научни теми – от малко известни физични експерименти до последните открития в биотехнологията. А кой е издателят, чиито статии са с най-много заявки за теглене? Elsevier – и то с голяма преднина – наскоро, само в рамките на една седмица Sci Hub осигури половин милион тегления на статии на Elsevier.

Тази информация се базира на обширни данни от лога на сървъра, осигурени от  Александра Елбакян – невробиологът, който създаде сайта през 2011 г. като завършила 22-годишна студентка в Казахстан. Аз я помолих за данните, защото въпреки суматохата около поляризираните мнения, блог постове и туити за Sci Hub и за ефекта, който има върху изследователското и научното публикуване, някои от най-основните въпроси останаха без отговор: Кои са потребителите на Sci Hub, къде се намират и какво четат?

За човек, посочен като престъпник от влиятелни корпорации и научни общества, Елбакян бе изненадващо учтива и открита. След установяването на контакт през криптирана чат система, тя работи с мен в продължение на няколко седмици за създаването на база от данни за публично публикуване. Тя включва всяка стъпка от процеса на изтеглянето през 6-месечния период, стартиращ от 1-ви септември 2015 г., включително идентификатора на дигиталния обект (ИДО) за всяка статия. За да бъде защитена сигурността на Sci Hub потребителите, се съгласихме тя първо да изчисли географските разположения на потребителите до най-близкия град, използвайки данни от Google Maps. Никакви идентифициращи IP протоколи не ми бяха дадени. (Базата данни и детайлите относно анализа им са напълно достъпни.)

Това е Sci-Hub свят

Данните от лога на сървъра на Sci Hub от септември 2015 г. до февруари 2016 г. обрисуват профила на потребителите и разнообразните им интереси. Sci Hub има 28 милиона заявки за изтегляния от всички части на света, покривайки повечето научни дисциплини.

Елбакян отговори също така на почти всички въпроси, които имах за управлението й на сайта, взаимодействието с потребителите и дори за личния й живот. Сред малкото неща, които не искаше да обсъжда, е настоящето й местоположение, защото я грози риска от финансова разруха, екстрадиране и арест заради съдебен процес, заведен срещу нея миналата година от Elsevier.

Данните от Sci Hub  предоставят първия детайлен поглед върху това, което се превръща в първата изследователска библиотеката с отворен достъп. Едно разкритие, което може да изненада както привържениците, така и противниците на идеята: потребителите на сайта не се свеждат само до потребители от развиващите се страни. Някои от критикуващите Sci Hub изтъкват, че много от потребителите биха могли да получат достъп до същите статии през своите библиотеки, но използват Sci Hub не поради необходимост, а поради удобство. Данните подкрепят това твърдение. САЩ е петият най-голям ползвател на сайта след Русия, а една четвърт от заявките за изтегляния идват от 34-те страни членки на „Организацията за икономическо сътрудничество и развитие“, включваща най-заможните нации, с предполагаемо най-добрия достъп до научни издания. Всъщност, част от най-интензивното използване на Sci Hub изглежда се случва в кампусите на университетите в САЩ и Европа.

През октомври миналата година Ню-Йоркски съдия отсъди в полза на Elsevier, постановявайки, че Sci Hub нарушава законните права на издателя като носител на авторските права на съдържанието на изданията, и нареди сайтът да бъде спрян. Това разпореждане е имало малък ефект, както си личи от данните от сървъра. Въпреки че уеб домейнът sci-hub.org бе спрян през ноември 2015 г., сървърите, които поддържат Sci Hub се намират в Русия, извън влиянието на съдебната система на САЩ. Почти веднага, сайтът се завърна на различен домейн.

Трудно е да си представим колко заплашени от Sci Hub се чувстват Elsevier и други големи издатели, в частност защото резултатите от броя на легалните сваляния обикновено не се обявяват публично. Доклад на Elsevier от 2010 г. обаче дава приблизителна оценка за повече от 1 милиард сваляния за всички издатели през годината, предполагайки че Sci Hub може да източва под 5% от нормалния трафик. Все пак, много хора са обезпокоени, че Sci Hub ще се окаже разрушителен за научно-издателския бизнес, подобно на сайта Napster за музикалната индустрия. “Аз не одобрявам незаконните практики“, казва Питър Субер, директор на службата за научна комуникация в Харвардския университет и един от водещите ескперти в областта на издаването със свободен достъп. „Съдебен процес обаче не би ги спрял, нито пък има очевидни технически средства за спирането им. Всеки трябва да помисли за факта, че това съществува и ще продължи да съществува.“

Лесно е да разберем защо издателите може да виждат Sci Hub като заплаха. Сайтът е толкова лесен за използване, колкото Гугъл търсачката, и ако знаеш ИДО-то или заглавието на статията, е по-надежден за намиране на целия текст. Най-вероятно ще намериш това, което търсиш. Заедно с глави от книги, монографии и сборници от конференции, Sci Hub има множество копия на по-голямата част от научните статии, публикувани някога и продължава да се разраства: Когато някой заяви статия, която все още не присъства в Sci Hub, нейно копие бива направено и добавяно към хранилището.

Елбакян отказа да сподели как точно се сдобива със статиите, но потвърди, че включва онлайн пълномощия: ID-та на потребителите и пароли на хора или институции със законен достъп до съдържанието на изданията. Тя казва, че много учени са ги дарили доброволно. Издатели предполагат, че Sci Hub разчита на фишинг имейли, за да подведе изследователите и да ги накара да се логнат във фалшиви сайтове за научни издания. „Не мога да потвърдя точния източник на пълномощните“, ми каза Елбакян, “но мога да потвърдя, че аз самата не съм изпращала никакви фишинг имейли.“

По своето естество съдържанието на Sci Hub се направлява от това, което учените търсят. Януарска статия в The Astronomical Journal, описваща възможното съществуване на нова планета в покрайнините на нашата Слънчева система? Статията в Nature от 2015 г., описваща кислорода на кометата 67P/Churyumov-Gerasimenko? Статията, в която екип чрез генно инженерство създаде устойчивост на HIV-вируса в човешки ембриони, чрез метода CRISPR , публикуван месец преди това в Journal of Assisted Reproduction and Genetics? Sci Hub има всички тези статии.

Топ 10 на най-теглените Sci Hub статии

От 28-те милиона заявени за изтегляне документи от септември 2015 г. до февруари 2016 г., тези бяха най-популярни:

Има статии от научни издания, както и копия от статии с отворен достъп, вероятно поради объркване от страна на потребителите на сайта или просто защото го използват като портал, включващ всичко на едно място. Повече от 4000 документи със свободен достъп от PLOS например, могат да бъдат свалени от Sci Hub.

Потокът на активността в сайта през шестмесечния период отразява работните усилия на изследователите, растящи с всеки изминал ден и затихващи, но неспирни и през нощта. (Има 18-дневна липса на данни, стартираща от 4-ти ноември 2015 г., когато домейнът sci-hub.org е бил свален и логовете на сървърите са били неправилно конфигурирани.) Към края на февруари, потокът на статии в Sci Hub се надига до най-високото си ниво: повече от 200 000 заявки за теглене на ден.

Колко Sci Hub потребители има? Заявките за теглене идват от 3 милиона уникални IP адреса, което предвижда по-ниска долна граница. Но истинският брой е много по-голям, защото хиляди хора в университетския кампус могат да споделят един и същ IP адрес. Потребителите на Sci Hub има от всеки един континент, с изключение на Антарктика. От 24,000 гнездови градски локации, към които се причисляват, най-натоварената е Техеран с 1,27 милиона заявки. Голяма част от тях идват от иранци, използващи  програми, които автоматично свалят огромни бройки от статии, за да направят местни подобия на сайта, казва Елбакян. Рахими, студентът по инженерство от Иран, потвърждава това. „Съществуват няколко персийски сайта, подобни на Sci Hub“, казва той. „Така че трябва да счетеш бройката на тегленията, идващи от Иран за пет или шест пъти по-голяма“ от това, което самия Sci Hub разкрива.

Употребата на Sci Hub според географския критерий изглежда като карта на научната продуктивност. По-малките страни си имат свои собствени хранилища. Някой в Нуук, Гренландия, чете статия за това как най-добре да се осигури раково лечение за коренното население. Проучване тече и в Либия, въпреки бушуващата там гражданската война. Някой в Бенгази разследва метод за прехвърляне на данни между компютрите през въздушна междина. Далеч на юг в богатата на нефт пустиня, някой в близост до град Себха дълбае в темата за динамиката на флуидите. Картографирането на IP адресите върху съответстващите им световни локации би могло да нарисува грешна картина, ако хората се крият зад уеб прокси сървъри или услуги за анонимно мрежово маршрутизиране. Но според Елбакян, по-малко от 3% от потребителите на Sci Hub използват тези методи.

В САЩ и Европа потребителите на Sci Hub са концентрирани на местата, където работят научните изследователи. За 6-месечния период, 74 000 заявки за теглене са дошли от Ню Йорк, където има множество университети и научни институции. Имало е 19,000 заявки за тегелене от Кълъмбъс, град с по-малко от 1/10 от населението на Ню Йорк, и 68,000 заявки от Източен Лансинг, Мичиган, чието население е по-малко от 1/100 от населението на Ню Йорк. Там са разположени съответно Щатският университет на Охайо и Мичиганският щатски университет.

 

Необходимост или удобство?

Много от потребителите на Sci Hub изглежда се събират в близост до университети, които имат добър достъп до научни издания. Петте града с най-много заявки са Ашбърн, Вирджиния (96, 857), Ню Йорк, Ню Йорк (73, 606), Източен Лансинг, Мичиган (68, 315), Фримонт, Калифорния (59, 389), Маунтийн Вю, Калифорния (56, 637).

Числата за Ашбърн, Вирджиния, градът с най-много заявки от САЩ – почти 100 хиляди, са трудни за интерпретация. Университетът „Джордж Вашингтон“ (GWU) във Вашингтон, окръг Колумбия, има свой собствен кампус за наука и технологии там, но Ашбърн е дом също на изследователския кампус „Джанелия“ (Janelia Research Campus), част от елитния медицински институт „Хауърд Хюз“, както и на сървърите на фондация „Уикимедия“. Говорители на последните две казват, че е малко вероятно техните служители да участват в трафика. Пресслужбата на университета „Джордж Вашингтон“ отговори в защитна позиция, изпращайки ми онлайн изявление, че университетът наскоро е адресирал въпроса за повишаването на процента на абонаментите за научни издания от бюджета на библиотеката. „Научните ресурси не са луксозни стоки“, се казва в изявлението, „но техните цени съответстват именно на такива.“

Няколко студенти от университета признаха, че са почитaтели на Sci Hub. Когато се преместила от Аржентина в САЩ през 2014 г., за да започне докторантурата си по физика, Наталия Клементи казва, че нейният достъп до ключови издания е станал по-ограничен, защото университетът нямал абонамент за тях. Изследователите в Аржентина може да имат трудности с достъпа до някои специфични издания, отбелязва тя, но „повечето от тях нямат проблеми с достъпа до големите научни издания, защото правителството плаща за абонамента за тях за всички обществени университети в страната.“

Дори, когато става въпрос за издания, до които университетът има достъп, Sci Hub е предпочитаният източник, казва Джил Форсит, който също кара докторантската си степен по физика. „Ако търся в Google Scholar и не се появи PDF линк, трябва да кликна „Провери достъпа чрез GWU“ и понякога се получава, а понякога не“, казва той. „Ако напиша ИДО-то или името на статията в Sci Hub, просто ще проработи.“ Той казва, че изданията на Elsevier са тези, с чиито достъп той има най-голям проблем.

Библиотечната система на университет „Джордж Вашингтон“ „предлага система за предоставяне на документи специално по математика, физика, химия и инженерство“ – казва Маралий Кселар, директор на връзките с медиите на университета. “Дипломирани студенти, които искат достъп до статия от Elsevier системата, трябва да потърсят съдействие от ръководителя на департамента, професора на курса или факултетния съветник.“

Sci Hub активността в Източен Лансинг разкрива още един мотив за използването на сайта. Повечето от тегленията изглежда са дело на малко хора или дори само на един човек, стартирал „циклична“ програма по време на празничната ваканция през декември 2015 г., сваляйки статии с невероятни скорости. Попитах Елбакян дали тези заявки за тегления са дошли от IP адреса на Мичиганския щатски университет и тя потвърди, че идват от там. Всички статии са от издания за химия, повечето от тях публикувани от Американското химично общество. Това означава, че крайната цел е да се създаде лично хранилище за литература по химия. Но защо?

Бил-Харт Дейвидсън, декан по следдипломно обучение, предполага, че вероятният отговор е „текстово анализиране“– използването на компютърни програми за анализ на големи колекции от дoкументи и генериране на данни. Когато се обадих на Харт Дейвидсън, предложих, че е възможно човекът, стартирал цикличната програма, да е някой от собствения му изследователски екип. Той се засмя и каза, че няма идея кой би могъл да бъде. Но той разбира защо в случая е използван Sci Hub, въпреки че Мичиганският университет има абонамент за изтеглените издания. За своето собствено проучване относно лингвистичната структура на научния дискурс, Харт-Дейвидсън се е сдобил с нужните му статии по трудния начин – законно с помощта на издателите. „Отне ми цяла година само да получа позволение“, казва  Томас Падийа, библиотекарят от Мичиганския университет, който се е занимавал с преговорите. И веднъж пристигнал, препълненият със статии хард диск бил придружен от стриктни правила за използването му. В края на всеки ден при стартиране на компютърни програми върху него от офлайн компютри, Падийа трябвало да мести получените данни на флашка за анализ в кампуса.

Все още Sci Hub има недостатъци за текстово-анализиращо проучване, казва Харт-Дейвидсън. Пиратските статии са в неструктуриран PDF формат, който е труден за програмите при правене на разбор. Но по-големият проблем, казва той, е нелегалният източник на данни. „Как ще публикуваш своя труд?“ И все пак, притежанието на огромно лично хранилище на статии позволява на изследователя бързо да тества хипотези, преди да се занимава с каквито и да е библиотеки и е само на един клик разстояние.

Докато Elsevier води законна битка с Елбакян и Sci Hub, голяма част от представителите на издателския бизнес виждат битката като безполезна. „Бройките са смайващи“, ми каза един от старшите изпълнителни директори на голям издател, при изучаването на данните от Sci Hub. “Това предполага почти пълен провал при осигуряването на път за достъп на тези изследователи.” Той работи за компания, която публикува част от най-пиратстваното съдържание в Sci Hub и помоли за анонимност, за да може да говори откровено.

За изследователи в институции, които не могат да си позволят достъп до изданията, той казва, че издателите „би трябвало да направят абонаменти или да изискват по-разумни цени за тях“. Ричард Гиди, директорът на програмите за подпомагане на Международна асоциация на научните, техническите и медицинските издатели, оспорва това. Институциите в развиващите се страни, които се възползват от програмите за подпомагане, имат широк достъп до рецензирани научни изследвания, почти еквивалентен на институциите в Северна Америка или Европа.

А за всички изследователи в Западните университети, които използват Sci Hub вместо това, анонимният издател вини библиотекарите, че не правят онлайн системите си по-лесни за използване и не образоват изследователите как да ги използват. „Не мисля, че проблемът е достъпът – по-скоро е възприятието, че достъпът е затруднен“, казва той.

Най-пиратстваните издатели в Sci Hub

Този анализ на 28-те милиона заявки за теглене идентифицира издателите чрез Cross-Ref идентификатори на дигитални обекти, които не отразяват сливането на “Springer” и “Nature”:

„Не съм съгласна“, казва Айви Андерсън, директор на колекциите на Калифорнийската дигитална библиотека в Оукланд, която предоставя достъп до издания на 240,000 изследователи от Калифорнийската университетска система. Системите за удостоверяване, които университетските изследователи трябва да използват, за да четат издания от абонамента извън кампусите, а понякога дори и в кампусите на личните си компютри, „са там, за да приведат в действие ограниченията на издателите“, казва тя.

Ще тласне ли Sci Hub индустрията към модел с отворен достъп, където удостоверяването на четеца не е нужно? Това не е ясно, казва Субер от Харвард. Въпреки че Sci Hub помага на много изследователи, отбелязва той, също така може да има „стратегическа цена“ за движението за свободен достъп, тъй като издателите могат да се възползват от „объркването“ относно законосъобразността на научния отворен достъп като цяло и да я ограничат. „Законнопостановеният отворен достъп кара издателите да се адаптират“, казва той, докато „незаконният отворен достъп ги кани да завеждат дела вместо това.“

Дори и да бъде арестувана, Елбакян казва, че Sci Hub няма да изчезне. Тя има резервни планове, за да може и в такъв случай сайтът да продължи да работи, а даренията на потребителите сега покриват цената за поддържането на сървърите на сайта. Тя също така отбелязва, че цялата колекция от 50 милиона статии е вече копирана от много други. „Не е нужно статиите да бъдат сваляни наново от университетите.“

Наистина, данните сочат, че експлозивното разрастване на Sci Hub е приключило. Елбакян казва, че процентът на заявките за изтегляне на документи, които не се съдържат в базата данни на сайта, се задържа за постоянно на 4,3%. Ако се свършат пълномощните за пиратстване на ново съдържание, празнината ще се разрастне отново, а издателите и университетите постоянно разработват нови схеми за удостоверяване, които тя и поддръжниците ѝ ще трябва да надхитрят. Тя дори ме помоли да даря собствените си потребителско име и парола в Science – шегуваше се само наполовина.

За самата Елбакян бъдещето е дори по-несигурно. Elsevier не само я съди за нарушение на авторски права, но и за незаконно хакерство по Закона за компютърните измами и злоупотреби на САЩ. „Съществува вероятността да бъда внезапно арестувана за хакерство“, признава Елбакян. Други, които са се сблъскали с този закон, са били екстрадирани в САЩ, докато са пътували. Тя напълно съзнава, че друг компютърен феномен – Аарон Шварц, бе арестуван по подобни обвинения през 2011 г. след масово сваляне на академични документи. Сблъсквайки се с опустошителните финансови санкции и затвора, Шварц се самоуби.

Подобно на останалата част от научната общност, Елбакян наблюдава как бъдещето на научната комуникация бързо се развива. „Ще видя какъв ще е резултатът от всичко това.“

 

 

 


Европейска нощ на учените 2022 г.: