Модель малого языка Microsoft Phi-3-vision обеспечивает анализ изображений на мобильных устройствах

Bolat Mukashev

6 месяцев назад

Microsoft расширяет семейство малых языковых моделей Phi-3, выпуская Phi-3-vision. В отличие от своих предшественников, Phi-3-vision является мультимодальной моделью, которая может не только анализировать текст, но и понимать изображения.

Преимущества Phi-3-vision

Эта модель, имеющая 4,2 миллиарда параметров, предназначена для мобильных устройств и отлично справляется с задачами визуального мышления. Пользователи могут задавать вопросы о изображениях или диаграммах, и Phi-3-vision предоставит содержательные ответы. Хотя она не генерирует изображения, как DALL-E или Stable Diffusion, модель превосходно анализирует и понимает визуальные данные.

Семейство моделей Phi-3

Выход Phi-3-vision следует за выпуском Phi-3-mini, самой маленькой модели в семействе с 3,8 миллиардами параметров. Теперь линейка включает Phi-3-mini, Phi-3-vision, Phi-3-small (7 миллиардов параметров) и Phi-3-medium (14 миллиардов параметров).

Тенденции и успехи в ИИ

Фокус на меньших моделях отражает растущую тенденцию в разработке искусственного интеллекта, где меньшие модели требуют меньше вычислительной мощности и памяти. Это делает их идеальными для мобильных устройств и других сред с ограниченными ресурсами. Microsoft уже достигла успеха с этим подходом: её модель Orca-Math, как сообщается, превосходит более крупные аналоги в решении математических задач. Phi-3-vision в настоящее время доступна в предварительной версии, а остальные модели семейства Phi-3 можно найти в библиотеке моделей Azure.

Onleihe — это цифровая библиотека Гёте-Института (eLibrary)