|
В качестве описания проекта приводим информацию с
официального сайта.
Что такое SIMAP?
SIMAP - база данных сходств протеинов. Она содержит
почти все опубликованные протеиновые последовательности
и постоянно обновляется. Протеиновые последовательности
вычисляются с использованием алгоритма FASTA, который
обеспечивает оптимальные скорость и чувствительность.
SIMAP - единственный известный нам проект, совмещающий
исчерпывающее покрытие в отношении всех известных
протеинов и возможности инкрементального обновления.
Для чего используется SIMAP?
Огромное количество известных протеиновых
последовательностей в публичных базах данных не позволит
в ближайшем будущем экспериментально описать большинство
из них. Тем не менее, протеины, полученные от общего
предка, часто имеют те же функции (так называемые
ортологи - orthologs). Таким образом оказывается
возможным вывести функцию неохаракеризованного протеина
из ортолога с известной функцией. Широко известные
примеры - исследования генов и протеинов мыши. Их
результаты оказались во многих случаях справедливыми и
для человеческих генов и протеинов. Сходства протеинов
предоставляют информацию о связях между протеинами и
необходимы для предсказания ортологов. Существует
множество биоинформационных методов, полагающихся на
сходства протеинов. Наша база данных сходств протеинов
предоставляет предварительно вычисленные данные о
сходстве и представляет известное пространство
протеинов. Это открывает абсолютно новые перспективы по
сравнению с используемыми методами для повторного
пересчёта такого рода данных. SIMAP регулярно
обновляется. Матрица сходств расширяется по мере
появления новых последовательностей. Использование SIMAP
полностью бесплатно для образовательных целей и
публичных исследований.
Зачем нам
нужны распределённые вычисления для SIMAP?
Стоимость вычислений данных о сходствах протеиновых
послеовательностей пропорциональна квадрату количества
содержащихся последовательностей. Таким образом,
вычислительные усилия для поддержания матрицы в
актуальном состоянии постоянно растут. Наших внутренних
ресурсов, годами выполняющих вычисления для SIMAP,
больше не достаточно для отслеживания новых
последовательностей. Вот почему мы реализовали
SIMAP-клиента для платформы BOINC (Berkeley Open
Infrastructure for Network Computing), основанного на
алгоритме FASTA для обнаружения сходств
последовательностей.
Какие
организации стоят за SIMAP?
SIMAP - это совместный проект GSF Национального
исследовательского центра окружающей среды и здоровья в
Нойерберге под Мюнхеном и Научного центра жизни и
питания в Вайенстефане (Германия). Контактное лицо -
Томас Раттай (Отдел геном-ориентированной биоинформатики,
Технический Университет, Мюнхен).
Перевёл Вит Сердаковский
|