В работе «Efficient Contextual Bandit Learning via Reward-Space Sampling and Online Optimization» команда предложила новый метод обучения контекстных многоруких бандитов. Подход напрямую семплирует в пространстве наград и обновляет модель онлайн-оптимизацией, что позволяет быстрее выходить на почти оптимальную награду, обходиться без сложной параметрической оценки и снижать вычислительные затраты.
В докладе «BREPS: Bounding-Box Robustness Evaluation of Promptable Segmentation» представители центра рассказали о методе синтеза боксов разметки, использование которых позволяет минимизировать или максимизировать ошибку сегментации в зависимости от критерия. Также в исследовании проведён сравнительный анализ современных моделей на 10 наборах данных, содержащих как повседневные сцены, так и медицинские изображения.