AIRI создал эталон для оценки химических языковых моделей ИИ

Фото с сайта pixabay.com
Институт AIRI разработал специализированный бенчмарк для проверки эффективности нейросетевых языковых моделей при решении практических химических задач. Работа будет представлена на международной конференции EMNLP 2025.
Новый инструмент оценки объединяет базовые химические операции в сложные цепочки, моделирующие реальную работу химиков. Бенчмарк включает определение продуктов реакций, предсказание свойств веществ и генерацию описаний молекул по формулам. Такой подход позволяет проверить способность моделей справляться с многоступенчатыми процессами разработки лекарств или катализаторов.
Тестирование охватило универсальные и специализированные языковые модели. Универсальные системы демонстрировали содержательные и логичные ответы, но уступали по формальным автоматическим метрикам узкоспециализированным аналогам. Профильные модели показывали точность в своей области, однако пока не достигают необходимого уровня качества по объективным показателям.
Кузьма Храбров, научный сотрудник Группы органической химии центра ИИ-разработки лекарственных препаратов AIDD Института AIRI, отметил: "Наш бенчмарк призван помочь разработчикам языковых моделей лучше понимать архитектурные ограничения нейросетей. Он может стать основой для дальнейших исследований в области автоматизации химических рассуждений", сообщает "Компьютерра".