Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jorge Bravo Abad
Профессор физики @UAM_Madrid | Профессор. Руководитель лаборатории искусственного интеллекта для материалов | Директор лаборатории «Искусственный интеллект для материалов».
Разблокировка моделей оснований на уровне отдельных клеток с 96% меньшим количеством параметров
Модели больших языков на уровне отдельных клеток (scLLMs) усвоили замечательные биологические знания из миллионов клеток. Но у них есть критическая слабость: если их вынести из контекста обучения — новая болезнь, невиданное видовое разнообразие, неохарактеризованная клеточная популяция — их предсказания становятся ненадежными.
Стандартное решение — дообучение. Но дообучение перезаписывает оригинальные параметры модели, вызывая "катастрофическое забывание" заранее усвоенных биологических знаний. И это требует значительных вычислительных ресурсов, которые у многих исследователей просто нет.
Фэй Хэ и соавторы предлагают scPEFT — эффективную в плане параметров структуру дообучения, которая замораживает оригинальный каркас scLLM и обучает только небольшие, низкоразмерные адаптеры. Четыре типа адаптеров (Token adapter, Prefix adapter, LoRA, Encoder adapter) вставляются в разные части архитектуры модели, обучая специфические для задачи корректировки, не затрагивая предобученные веса.
Эффективность впечатляет: scPEFT снижает количество обучаемых параметров более чем на 96% и сокращает использование памяти GPU более чем вдвое. Но вот что важно — она на самом деле работает лучше, чем полное дообучение. На специфических для болезни наборах данных (NSCLC, MS, COVID-19) scPEFT достигает улучшения точности на 39.7–81.7% по сравнению с родными моделями и на 4.3–15% по сравнению с дообученными версиями, именно потому что она сохраняет, а не перезаписывает предобученные знания.
Эта структура также позволяет перенос знаний между видами от моделей, обученных на человеке: 14% улучшение на нейронах мыши, 39% на зародышевых клетках макак и 144% на C. elegans — все с использованием ортологичных генетических сопоставлений. Анализ внимания выявляет гены, связанные с COVID, в специфических состояниях Т-клеток и обнаруживает биологически значимые субпопуляции, невидимые для дообученных моделей.
Широкое значение: по мере того как модели оснований proliferate в биологии, нам нужны эффективные способы адаптации их, не разрушая то, что они уже усвоили. scPEFT показывает, что иногда обновление меньшего количества означает обучение большему.

6
Архитектуры, вдохновленные нейронаукой, для создания по-настоящему адаптивного ИИ
Современные системы ИИ мощные, но хрупкие. Обучите модель, разверните её и наблюдайте, как производительность ухудшается по мере изменения мира. Переобучите на новых данных, и модель забывает то, что знала. Этот цикл производит системы, которые отлично справляются со статическими тестами, но испытывают трудности с непрерывной адаптацией — с чем биологический интеллект справляется без усилий.
Мышь может научиться находить воду в новом лабиринте за примерно десять попыток, скорость обучения в 1,000 раз быстрее, чем в традиционных лабораторных задачах. Тем не менее, наши самые сложные нейронные сети страдают от катастрофического забвения, когда их просят учиться последовательно.
Мозг предлагает другую архитектуру. Он работает не как одна запутанная сеть, а как умно взаимосвязанные специализированные модули — зрительная кора обрабатывает края, моторная кора вычисляет в пространстве силы, префронтальные области отслеживают структурированную память задач. Каждый модуль строит внутренние модели, обновляемые через ошибки предсказания, когда ожидаемые результаты расходятся с реальностью. Эти подписанные обучающие сигналы теперь были обнаружены в сенсорных, моторных и наградных цепях.
Маккензи Уэйгандт Мэтис синтезирует эти идеи в предложение для адаптивного агентного ИИ. Вместо того чтобы стремиться к все более крупным монолитным базовым моделям, она выступает за системы доменно-специфических кодеров, выходы которых совместно оптимизируются в общем скрытом пространстве. Каждый кодер контролируется сигналами ошибки предсказания — надежные кодеры остаются "заблокированными", в то время как те, кто показывает ухудшение производительности, "разблокируются" для непрерывного обучения с использованием воспроизведения памяти или синаптического интеллекта, не отключая всю систему.
Широкий принцип: структурируя ИИ вокруг модульности, вдохновленной нейронаукой, и обновления на основе ошибок предсказания, а не монолитного масштаба, становится возможным перейти от статических моделей к по-настоящему адаптивному интеллекту — системам, которые непрерывно уточняют свои модели мира через взаимодействие с ним.
Статья:

36
Учится ли человек как трансформеры?
Это вопрос, который звучит почти философски, но Песно Леруссо и Саммерфилд превратили его в строгий эксперимент. Они обучили как людей (n = 530), так и небольшие сети трансформеров на одной и той же задаче обучения правилам, а затем изменили одну переменную: статистическое распределение обучающих примеров — от полностью разнообразных (каждый пример уникален) до сильно избыточных (одни и те же элементы повторяются снова и снова).
Результат поразителен. И люди, и трансформеры показывают почти идентичную чувствительность к этой манипуляции. Обучаясь на разнообразных данных, учащиеся обобщают правила на новые ситуации ("обучение в контексте"). Обучаясь на избыточных данных, они запоминают конкретные примеры ("обучение в весах"). Переход между стратегиями происходит в одной и той же критической точке (экспонента Ципфа α ≈ 1) как в биологических, так и в искусственных системах. Ни те, ни другие не могут легко делать и то, и другое — пока вы не предоставите им составное распределение, смешивающее разнообразие и избыточность, в этот момент и люди, и трансформеры становятся "двойными учащимися."
Но вот где они расходятся: люди получают выгоду от учебных планов. Если представить разнообразные примеры в начале, люди открывают обобщаемое правило, не теряя способности запоминать позже. Трансформеры, напротив, страдают от катастрофического вмешательства — все, что они учат вторым, перезаписывает то, что было первым.
Вывод для ИИ и образования: структура обучающих данных важна так же, как и их содержание. И хотя трансформеры могут удивительным образом соответствовать человеческому обучению, им все же не хватает гибкости, которая позволяет нам извлекать выгоду из хорошо спроектированных учебных планов.
Статья:

53
Топ
Рейтинг
Избранное
