a
b
c
d
FindNews.ru - новости, последние события, хроники.
Российские покупатели автомобилей неожиданно столкнулись с требованием заплатить ещё раз
Вчера, 23:15
США оставили Зеленского без лицензии на ракеты из-за фиаско в Иране
Вчера, 22:08
Инженерные классы открыты в 207 школах Москвы - Собянин
Вчера, 20:31
Ученые раскрыли, как простая диета защищает кости лучше строгих ограничений
Вчера, 20:30
АО «Прогресс» управляет рисками с помощью собственной разработки АСУР Risk Radar на базе Directum RX
Вчера, 19:48
«Хомнет» интегрировала свои решения с платформой данных Cbonds
Вчера, 19:48
США заигрались с пошлинами. Dyson и Lenovo пошли войной на Трампа. Им помогут Epson и Nintendo
Вчера, 19:48
«М.Видео»: продажи портативных медиаплееров выросли на 83% в 2025 году
Вчера, 19:48
Региональные органы власти под киберударом: ГК «Солар» назвала самые атакуемые отрасли в 2025 году
Вчера, 19:47
В Max зарегистрировались 100 миллионов пользователей
Вчера, 19:47

Исследователь Yandex Research создал опенсорс-проект для сокращения расходов на внедрение нейросетей

Исследователь из научного отдела «Яндекса» Владимир Малиновский разработал сервис для запуска большой языковой модели с восьмью млрд параметров на обычном компьютере или смартфоне — через интерфейс любого браузера. Такой подход может значительно сократить расходы корпораций, стартапов и исследователей на вычислительные мощности, что сделает разработку и использование LLM дешевле. Исходный код проекта исследователь опубликовал в свободном доступе на GitHub. Об этом CNews сообщили представители Yandex Research.

Перенести все вычисления на устройство и отказаться от использования дорогостоящих мощных графических процессоров удалось с помощью технологии сжатия нейросетей AQLM, которую разработала команда Yandex Research совместно с исследователями из университетов ISTA и KAUST летом 2024 г.

Когда пользователь открывает платформу, на его устройство из облака можно загрузить модель Llama3.1-8B. Её размер уменьшен в шесть раз — она весит всего 2,5 ГБ. После загрузки она может работать даже без интернета. Скорость ответов нейросети зависит от производительности устройства: например, на MacBook Pro M1 она составляет 1,5 токена в секунду или три–четыре символа.

Программа написана на языке программирования Rust с помощью технологии WebAssembly, позволяющей запускать проект на любом языке внутри браузера.

Модель сжата с помощью комбинации методов AQLM и PV-tuning. Первый значительно уменьшает размер модели (до восьми раз) и ускоряет её, а второй исправляет ошибки, которые возникают при сжатии, чтобы потери в качестве работы нейросети были незначительны. Так, несмотря на уменьшение Llama3.1-8B, удалось сохранить около 80% от первоначального качества ее ответов.

Поделиться Подписаться на новости Короткая ссылка

Наука и высокие технологии - другие новости