Понедельник, 20 мая, 2024
ДомойЗдоровьеМатематики используют искусственный интеллект и новый алгоритм кластеризации для выявления новых вариантов...

Математики используют искусственный интеллект и новый алгоритм кластеризации для выявления новых вариантов COVID-19

- Advertisement -

Стилизованное изображение результата кластеризации CLASSIX, наложенное поверх иллюстрации коронавируса. Фото: Манчестерский университет, CDC / Алисса Эккерт, MSMI; Дэн Хиггинс, MAMS

Инфраструктура искусственного интеллекта помогает выявлять и отслеживать новые COVID-19 вариантов, используя новый алгоритм под названием CLASSIX для эффективной обработки больших наборов геномных данных и повышения эффективности усилий по раннему обнаружению.

Ученые из университетов Манчестера и Оксфорда разработали систему искусственного интеллекта, которая может выявлять и отслеживать новые варианты COVID-19, а также может помочь в борьбе с другими инфекциями в будущем.

Платформа сочетает в себе методы уменьшения размерности и новый объяснимый алгоритм кластеризации под названием CLASSIX, разработанный математиками из Манчестерского университета. Это позволяет быстро идентифицировать группы вирусных геномов, которые могут представлять риск в будущем, на основе огромных объемов данных.

Исследование, представленное на этой неделе в журнале ПНАСможет поддержать традиционные методы отслеживания вирусной эволюции, такие как филогенетический анализ, который в настоящее время требует обширного ручного управления.

Роберто Кауанци, исследователь из Манчестерского университета и первый и соответствующий автор статьи, сказал: «С момента появления COVID-19 мы наблюдаем множество волн новых вариантов, повышенную заразность, уклонение от иммунных реакций и повышенную тяжесть заболевания. болезни.

«Ученые сейчас активизируют усилия по выявлению этих тревожных новых вариантов, таких как альфа, дельта и омикрон, на самых ранних стадиях их появления. Если мы сможем найти способ сделать это быстро и эффективно, это позволит нам действовать более активно в наших ответных мерах, таких как разработка адаптированных вакцин, и, возможно, даже позволит нам устранить варианты до того, как они станут устойчивыми».

Диаграмма, показывающая этапы предлагаемого метода для выявления новых вариантов COVID-19. Фото: Манчестерский университет.

Как и многие другие РНК вирусов, COVID-19 имеет высокую частоту мутаций и короткий промежуток времени между поколениями, что означает, что он развивается чрезвычайно быстро. Это означает, что выявление новых штаммов, которые могут оказаться проблематичными в будущем, требует значительных усилий.

В настоящее время в базе данных GISAID (Глобальная инициатива по обмену всеми данными о гриппе) доступно почти 16 миллионов последовательностей, что обеспечивает доступ к геномным данным вирусов гриппа.

Картирование эволюции и истории всех геномов COVID-19 на основе этих данных в настоящее время выполняется с использованием чрезвычайно большого количества компьютерного и человеческого времени.

Описанный метод позволяет автоматизировать подобные задачи. Исследователи обработали 5,7 миллиона последовательностей с высоким уровнем покрытия всего за один-два дня на стандартном современном ноутбуке; это было бы невозможно для существующих методов, в результате чего идентификация штаммов патогенов была бы в руках большего числа исследователей из-за сокращения потребностей в ресурсах.

Томас Хаус, профессор математических наук в Манчестерском университете, сказал: «Беспрецедентное количество генетических данных, полученных во время пандемии, требует улучшения наших методов для их тщательного анализа. Данные продолжают быстро расти, но, не показывая пользы от курирования этих данных, существует риск того, что они будут удалены или удалены.

«Мы знаем, что время человеческих экспертов ограничено, поэтому наш подход не должен полностью заменять работу людей, а работать вместе с ними, чтобы позволить выполнить работу намного быстрее и освободить наших экспертов для других жизненно важных разработок».

Предлагаемый метод работает путем разрушения генетических последовательностей вируса COVID-19. вирус на более мелкие «слова» (называемые 3-мерами), представленные в виде чисел путем их подсчета. Затем он группирует похожие последовательности вместе на основе их шаблонов слов, используя машинное обучение техники.

Стефан Гюттель, профессор прикладной математики в Манчестерском университете, сказал: «Разработанный нами алгоритм кластеризации CLASSIX гораздо менее требовательн в вычислительном отношении, чем традиционные методы, и полностью объясним, то есть обеспечивает текстовые и визуальные объяснения вычисляемых кластеров».

Роберто Кауанци добавил: «Наш анализ служит доказательством концепции, демонстрируя потенциальное использование методов машинного обучения в качестве инструмента оповещения для раннего обнаружения появляющихся основных вариантов, не полагаясь на необходимость создания филогений.

«Хотя филогенетика остается «золотым стандартом» для понимания происхождения вируса, эти методы машинного обучения могут обрабатывать на несколько порядков больше последовательностей, чем текущие филогенетические методы, и при этом с низкими вычислительными затратами».

Ссылка: «Неконтролируемая идентификация значительных линий передачи SARS-CoV-2 с помощью масштабируемых методов машинного обучения» Роберто Кауанци, Катрина А. Литгоу, Ян Холл, Лоренцо Пеллис и Томас Хаус, 13 марта 2024 г., Труды Национальной академии наук.
DOI: 10.1073/pnas.2317284121

Исходная ссылка

- Advertisement -

Популярное по теме