У своїй промові про присудження Нобелівської премії 1972 року американський біохімік Крістіан Анфінсен сказав: одного разу стане можливим передбачити тривимірну структуру будь-якого білка просто по послідовності його амінокислотних будівельних блоків. Тепер, майже через 50 років, дослідники показали, що програмне забезпечення, засноване на штучному інтелекті (AI), може створювати точні білкові структури тисячами — досягнення, яке реалізує мрію Анфінсена і є проривом науки 2021 року.
З сотнями тисяч білків тільки в людському організмі такий прогрес матиме широкі можливості для застосування, пропонуючи розуміння основ біології і виявляючи нові перспективні лікарські препарати.
Білкові структури колись можна було визначити тільки за допомогою кропітких лабораторних аналізів. Але тепер їх можна швидко розрахувати для десятків тисяч білків і для комплексів взаємодіючих білків.
“Це кардинальна зміна для структурної біології”, – говорить Гаетано Монтеліоне, структурний біолог з Політехнічного інституту Ренсселера.
Девід Бейкер, Університет Вашингтона, Сіетл, обчислювальний біохімік, який очолював один з проектів прогнозування, додає, що завдяки достатку легкодоступних структур зміняться всі області обчислювальної та молекулярної біології.
Білки – це робочі конячки біології. Вони скорочують наші м’язи, перетворюють їжу в клітинну енергію, доставляють кисень в нашу кров і борються з мікробними загарбниками.
Проте, незважаючи на їх різноманітні таланти, всі білки починаються з однієї і тієї ж базової форми: лінійного ланцюжка з 20 різних видів амінокислот, з’єднаних разом в послідовності, закодованій в нашій ДНК.
Після складання на клітинних фабриках, званих рибосомами, кожен ланцюжок складається в унікальну, вишукано складну 3d-форму. Ці форми визначають, як білки взаємодіють з іншими молекулами, визначають їх роль у клітині.
Робота Анфінсена та інших вчених показала, що взаємодія між амінокислотами приводить білки в їх остаточну форму. Але, враховуючи величезну кількість можливих взаємодій між кожною окремою ланкою ланцюга і всіма іншими, навіть білки скромного розміру можуть приймати астрономічну кількість можливих форм.
У 1969 році американський молекулярний біолог Сайрус Левінтал підрахував, що буде потрібно більше часу, ніж вік Всесвіту, щоб білковий ланцюжок пройшов через них одну за одною — навіть у шаленому темпі. Але в природі кожен білок надійно згортається тільки в одну унікальну форму, зазвичай в одну мить.
У 1950-х роках дослідники почали відображати тривимірні структури білків, аналізуючи, як рентгенівські промені рикошетять від атомів молекул. Цей метод, відомий як рентгенівська кристалографія, незабаром став провідним підходом; сьогодні центральне сховище цієї області, Банк даних про білки, містить близько 185 000 експериментально вирішених структур.
Але картування структур може зайняти роки – і коштувати сотні тисяч доларів за білок. Щоб прискорити цей процес, в 1970-х роках вчені почали створювати комп’ютерні моделі, щоб передбачити, як буде згортатися білок.
Спочатку це було можливо тільки для маленьких білків або коротких сегментів більших. Однак до 1994 року комп’ютерні моделі стали досить складними, щоб запустити конкурс “критична оцінка прогнозування структури білка” (CASP). Організатори надали розробникам моделей амінокислотні послідовності десятків білків. Наприкінці заходу результати розробників моделей зіставляли з останніми експериментальними даними рентгенівської кристалографії та новими методами, такими як спектроскопія ядерного магнітного резонансу та кріоелектронна мікроскопія (кріо-ЕМ).
Бали вище 90 вважалися нарівні з експериментально вирішеними структурами.
Ранні результати були скромними, з середніми балами нижче 60. Але з часом розробники моделей навчилися поліпшувати свої розрахунки. Наприклад, ділянки амінокислот, що розділяються двома білками, часто згортаються аналогічним чином. Якщо білок з невідомою структурою розділяє, скажімо, 50% своєї амінокислотної послідовності з білком, який має відому структуру, останній може служити “шаблоном” для керівництва комп’ютерними моделями.
Ще одне важливе відкриття прийшло в результаті еволюції. Дослідники зрозуміли, що якщо одна амінокислота змінилася в білку, поділеному близькоспорідненими організмами, такими як шимпанзе і люди, амінокислоти, розташовані поблизу в згорнутій молекулі, теж повинні були б змінитися, щоб зберегти форму і функцію білка.
Це означає, що дослідники можуть звузити форму білка, шукаючи амінокислоти, які еволюціонують одночасно: навіть якщо вони знаходяться далеко один від одного в розгорнутому ланцюзі, вони, швидше за все, є сусідами в кінцевій тривимірній структурі.
З 2018 року на сцену вийшла AlphaFold, програма, керована штучним інтелектом. Програма, розроблена дочірньою компанією Google DeepMind, навчається на базах даних експериментально вирішених структур. У своєму першому змаганні її середній бал був близький до 80, і вона виграла 43 з 90 матчів проти інших алгоритмів.
У 2020 році її наступник AlphaFold2 засяяв ще яскравіше. Оснащений мережею з 182 процесорів, оптимізованих для машинного навчання, AlphaFold2 набрав середній бал 92,4, що відповідає експериментальним методам.
“Я ніколи не думав, що побачу це в моєму житті”, – сказав тоді Джон Молт, структурний біолог з Університету Меріленда, Шейді Гроув, і співзасновник CASP.
Цього року прогнози штучного інтелекту перейшли в овердрайв. У середині липня Бейкер і його колеги повідомили, що їх програма штучного інтелекту RoseTTAFold розгадала структури сотень білків, всі з класу поширених лікарських мішеней.
Через тиждень вчені DeepMind повідомили, що вони зробили те ж саме для 350 000 білків, виявлених в організмі людини — 44% всіх відомих людських білків.
У найближчі місяці вони очікують, що їх база даних зросте до 100 мільйонів білків за всіма видами, що становить майже половину від загального числа, яке, як вважається, існує.
Наступним кроком є прогнозування того, які з цих білків працюють разом і як вони взаємодіють. DeepMind вже робить саме це. У новій публікації вчені представили 4433 білкових комплексів, що розкривають, які білки зв’язуються один з одним — і як. У листопаді RoseTTAFold додала до списку ще 912 комплексів.
Код для AlphaFold2 і RoseTTAFold тепер доступний для громадськості, допомагаючи іншим вченим включитися в гру. У листопаді дослідники з Німеччини та Сполучених Штатів використовували AlphaFold2 і cryo-EM для складання карти структури комплексу ядерних пор, що складається з 30 різних білків, які контролюють доступ до ядра клітини.
У серпні китайські дослідники використовували AlphaFold2 для картування структур майже 200 білків, що з ДНК, які можуть бути залучені у всі – від репарації ДНК до експресії генів.
Минулого місяця материнська компанія Google, Alphabet, запустила нове підприємство,яке використовуватиме передбачувані білкові структури для розробки нових лікарських препаратів. І команда Бейкера використовує своє програмне забезпечення для створення нових білкових послідовностей, які будуть складатися в стабільні структури, що може призвести до створення нових противірусних препаратів і каталізаторів.
Навіть зараз вчені, які вивчають SARS-CoV-2, використовують AlphaFold2 для моделювання ефекту мутацій в спайковому білку варіанту Омікрона. Вставляючи в білок амінокислоти більшого розміру, мутації змінили його форму – можливо, достатньо, щоб антитіла не зв’язувалися з ним і нейтралізували вірус.
Білкові структури не статичні; вони згинаються і скручуються, виконуючи свою роботу, і моделювання цих змін залишається складним завданням. І все ще залишається складним завданням візуалізувати більшість великих мультипротеїнових комплексів, які виконують безліч функцій в клітинах.
Але вибух досягнень, заснованих на штучному інтелекті, цього року відкриває небачений раніше погляд на танець життя і назавжди змінить біологію і медицину.
За матеріалами: Science
Підписуйтесь на канал в Telegram та читайте нас у Facebook. Завжди цікаві та актуальні новини!