Исследователи Apple задокументировали (pdf) новый метод, позволяющий запускать модели большого языка (LLM) на устройствах с помощью уникального метода ограничения оперативной памяти на мобильных устройствах. Полная версия LLM, такая как ChatGPT 4 от Open AI, имеет около 1,7 триллиона параметров и требует мощных серверов для обработки обработки. Тем не менее, новый Gemini AI от Google , который, как утверждает компания, может превзойти GPT-4, имеет версию «Nano» для смартфонов и использует методы квантования, чтобы сократить модель до 1,8 миллиарда параметров или 3,6 миллиарда параметров. Один из этих вариантов Gemini Nano в настоящее время работает на смартфонах Google Pixel 8 Pro
Qualcomm утверждает, что ее новая SoC Snapdragon 8 Gen 3 может поддерживать генеративные параметры AI LLM размером до 10 миллиардов — хотя она значительно более эффективна, чем то, что Google может работать в серии Pixel 8, это все еще далеко от 1,7. триллион параметров, необходимых для того, чтобы GPT-4 функционировал столь же впечатляюще. Квантование, которое осуществляет LLM для мобильных SoC, также означает, что они обеспечивают точность и эффективность. Таким образом, все, что может помочь увеличить количество моделей, которые можно подключить к мобильному устройству, тем выше производительность LLM.
Чтобы смартфоны могли выполнять задачи поколения AU на устройствах, требования к оперативной памяти также значительны. Для моделей LLM, уменьшенных до 8 бит в параметре с 7 миллиардами параметров (например, Llama 2 от Meta, который управляет Snapdragon 8 Gen 3), потребуется смартфону как минимум 7 ГБ оперативной памяти. Серия iPhone 15 Pro оснащена 8 ГБ оперативной памяти, поэтому это говорит о том, что разработанный Apple LLM, такой как Llama 2, будет располагаться на верхней границе того, что касается нынешних iPhone. Исследователи Apple нашли способ обойти ограничение встроенной оперативной памяти.
В исследовательской работе под названием « LLM в мгновение ока: эффективные выводы моделей большого языка с ограниченной памятью » исследователи генеративного искусственного интеллекта Apple разработали метод использования флэш-памяти iPhone для внедрения оперативной памяти встроенной системы устройства. Пропускная способность флэш-памяти не соответствует показателям мобильной оперативной памяти LDDR5/X, однако исследователи Apple разработали метод, который преодолевает это ограничение. обеспечение результата «оконного режима» (когда модель II повторно использует некоторые данные, хранящиеся во флэш-памяти, которые она уже обработала) и «объединения строк и столбцов» (при которых данные из LLM группируются более эффективным способом). обрабатывается, удивляет скорость чтения).
Конечно, нам еще предстоит увидеть LLM от Apple, хотя слухи предполагают, что мы можем увидеть более умную версию Siri на основе LLM, которая должна дебютировать как часть iOS 18 и иметь возможность запускаться на устройстве на моделях iPhone 16 Pro следующего поколения . Но когда мы это сделаем, оказывается, есть большие риски, что Apple будет использовать этот метод расширения оперативной памяти, чтобы гарантировать, что она приведет модель LLM с максимально возможными параметрами, которые она сможет эффективно запустить на устройстве. Поскольку Samsung обновит свою игру с генеративным искусственным интеллектом для запуска серии Galaxy S24 в следующем месяце, 2024 году, складывается как год, когда генеративный искусственный интеллект станет обычным явлением и на смартфонах.