Функцията за автоматично коригиране в Excel все още създава главоболие на генетиците

Въпреки че генетиците са предупредени за проблема с електронните таблици, 30% от публикуваните статии съдържат неправилно „поправени“ имена на гени в допълнителните данни.

Смущаващите грешки при автоматично коригиране могат да бъдат полезни, когато става въпрос за интернет списъци и теми в Twitter. Но в същото време те са и проклятие за генетиците, използващи програми за електронни таблици като Microsoft Excel. Пет години след като проучване показа, че проблемите с автокорекцията са широко разпространени, академичната литература все още е пълна с електронни таблици, изпълнени с грешки, според анализ на публикуваните генни списъци. Проблемът може да се окаже дори по-лош от осъзнатото досега. 

Дългогодишният проблем често възниква, когато съкратената форма на името на гена (известна като символ на гена) е неправилно разпозната като дата и автоматично коригирана като такава от Excel или Google Sheets. Например, SEPT4 (септин 4) и MARCH1 (мембранно свързан пръстен тип CH-тип 1) ще бъдат автоматично променени на 4-September и 1-March.

„Това може да окаже значително влияние върху вашите изследвания“, казва молекулярният биолог Ауриол Пурди от Университета в Сидни, Австралия. След като работи с набори от данни за генно-микрочипове и генни транскрипции в продължение на две десетилетия, Пурди е запозната с неволните грешки и умее да ги различава. Но тя казва също, че често начинаещите не могат да разпознаят проблема.

Изкривяване на резултатите 


РЕКЛАМА:

***

Работата на Пурди е свързана с идентифициране на генни мрежи, участващи в ранните стадии на заболяване при овце и говеда. Ако електронна таблица промени имената на гените, тези гени се губят, когато данните се импортират в софтуера за анализ на генната мрежа и това може да изкриви резултатите. Програмата „ще ви каже, че сте загубили куп гени“, казва тя, но няма да посочи кои от тях. „И когато се занимаваме с набори от данни, които съдържат 20 000 гена, ръчното сравняване на списъци за идентифициране на кои гени са загубени е тежка задача“, добавя Пурди.

Проблемът е документиран за първи път през 2004 г., когато Бари Зиберг, молекулярен фармаколог в Националния институт по рака в Бетезда, Мериленд, и неговите колеги предупредиха за промени в генните символи при обработката на данни в областта на геномиката.

През 2016 г. Марк Зиман и колегите му от Института за сърце и диабет на Baker IDI в Мелбърн, Австралия, определиха количествено проблема. Те открили, че една пета от докладите в най-добрите списания по геномика съдържат грешки при преобразуване на имена на гени в електронни таблици на Excel, публикувани като допълнителни данни. Тези набори от данни са често достъпни и използвани от други генетици, така че грешките могат да продължат и да изкривят по-нататъшните анализи.

Въпреки това, проблемът е изложен на вниманието на изследователите – и са предприети стъпки за отстраняването му – проблемът все още е широко разпространен, според актуализиран и по -мащабен анализ, ръководен от Зиман, сега в университета Deakin в Geelong, Австралия. Неговият екип установи, че почти една трета от повече от 11 000 статии с допълнителни списъци с гени на Excel, публикувани между 2014 и 2020 г., съдържат грешки в името на гена (вижте „Нарастващ проблем“).

При проста проверка могат да бъдат открити грешки при автокоригиране, казва Зиман, който изследва изчислителната възпроизводимост в генетиката. Но без тези проверки грешките могат лесно да останат незабелязани поради обема на данните в електронните таблици.

Промени в конвенциите за именуване 

През 2017 г. Комитетът за генна номенклатура на HUGO (HGNC)-който стандартизира имената на човешки гени-обяви, че ще предприеме драстичната мярка за промяна на символите на гените за често засегнатите гени, тъй като усилията за обучение на общността (включително видео през 2019 г. в YouTube) не успяха да решат проблема. Оттогава са актуализирани 27 генни символа, включително SEPT4 (сега SEPTIN4) и MARCH1 (сега MARCHF1).

Този ход беше в разрез с предпочитанията на комитета да запази имената стабилни, казва Елспет Бруфорд, която координира HGNC от Европейския институт по биоинформатика в Хинкстън, Великобритания. Миналата година комитетът публикува насоки, които отразяват новото правило за промяна на генните символи в случаите, когато е засегната обработката на данни. Други варианти за именуване на гени са последвали примера. 

Но може да е твърде рано да се видят промени в честотата на грешките в литературата, казва Бруфорд, тъй като публикуваните масиви от данни често съдържат остарели списъци с гени.„Ще минат години, преди това да започне да се използва масово и да дава резултат“, казва тя, поради което HGNC препоръчва на изследователите да проверяват най -новите данни от публичните бази данни и списанията да изискват от авторите да направят това преди публикуването.

От началото на годината Зиман публикува ежемесечен списък на водещите списания, която често съдържа добре известни заглавия като Nature Communications, eLife, PLoS Genetics и Scientific Reports. Зиман казва, че прави това, защото статиите, публикувани в тези списания, съдържат повече списъци с гени и по -големи набори от данни. 

Избягвайте или се адаптирайте

Едно от решенията е да се избягва използването на електронни таблици, предлага той. Въпреки че някои(като програмите с отворен код LibreOffice и Gnumeric) нямат този проблем, електронните таблици са трудни за проверка. „Ако има проблем, не е очевидно къде е възникнал той, тъй като няма запис за стъпките, които софтуерът е предприел“, казва той.

Някои изчислителни биолози използват скриптови компютърни езици, като Python и R. Те не коригират автоматично символите на гените, казва Зиман, а изследователите могат да проследят източника на грешки. Те обаче изискват от потребителите да научат компютърния език, за да могат да пишат код за анализ на данни.

Това е нещо, за което Пурди казва, че няма време. Тя се адаптира към странностите на Excel, като добавя апострофи преди често засегнатите гени, за да предотврати преобразуването, или предварително форматира клетки от електронни таблици, преди да импортира данни. „Това е едно от онези неща, които просто приемам“, казва тя.

Бруфорд казва, че проблемът с автоматичното коригиране в Excel е малко вероятно да бъде отстранен скоро. „Ние сме малка потребителска база в сравнение с всички потребители на Excel“, казва тя, а Microsoft никога не е посочвала, че ще промени своя софтуер, за да се приспособи към генетичната общност.

За тези, които продължават да работят с проблемния софтуер, Зиман препоръчва бърза проверка преди споделяне или публикуване на данни. Сортирането на данни по символ на гена може да доведе до грешки при преобразуване на дата, казва той.

Източник: nature.com
Превод: Анастасия Треновска


Европейска нощ на учените 2022 г.: