termometrix 28 января 2025, 09:19 75 Информационные технологии

Представлены новые открытые большие языковые модели на русском языке

Группа «Т-Технологии» представила две большие языковые модели: T-Pro на 32 млрд параметров и обновленной T-Lite на 7 млрд параметров. Многочисленные индустриальные бенчмарки, такие как MERA, ruMMLU, Ru Arena Hard, MT Bench и AlpacaEval, показали, что это лучшие в мире открытые LLM на русском языке.

T-Lite и T-Pro входят в Gen-T — семейство специализированных языковых моделей, разработанных компанией «Т-Технологии». Все они нацелены на решение конкретных узкоспециализированных задач.

Доступ для всех

Большие языковые модели (LLM) уже стали неотъемлемой частью разработки систем искусственного интеллекта. Они представляют собой сложные алгоритмы, которые обучаются на огромных массивах текстов с целью научиться понимать и генерировать человеческий язык, — это одна из главных причин, почему LLM являются особенно полезным инструментом для крупных компаний. А теперь им еще и можно будет пользоваться совершенно бесплатно.

Свободный доступ позволяет всем компаниям без ограничений применять модели для оптимизации внутренних бизнес-задач и создания инновационных продуктов с помощью LLM. Раньше такая возможность была только у крупных корпораций, которые либо вкладывали огромные средства в разработку моделей с нуля, либо платили высокие комиссии за использование закрытых моделей.

С их помощью можно, например, разработать интеллектуальных чат-ботов для поддержки пользователей, которые будут общаться с клиентами более естественно, не следуя заранее подготовленным сценариям, а создавая впечатление живого диалога. Это позволит частично или полностью автоматизировать процесс обработки запросов клиентов.

Для разработки моделей применялся метод непрерывного предварительного обучения (Continual Pretraining): уже обученную на большом объеме данных модель продолжали обучать на материалах, связанных с конкретной задачей или областью, и адаптировали ее для использования на русском языке.

«При нашем объеме бизнеса (более 46 млн клиентов и 90 тысяч сотрудников) возникают задачи такого уровня сложности, для которого подходят только собственные технологии. Так мы начали развивать Gen-T — семейство специализированных языковых моделей. Убедившись в их эффективности, мы решили поделиться нашими моделями со всей индустрией. Так наш опыт смогут перенять другие компании, а использование LLM станет гораздо шире»

Виктор Тарнавский Директор по искусственному интеллекту Т-Банка

T-Pro

Эта модель, в сравнении с Lite-версией, имеет большее количество параметров — не 7, а целых 32 миллиарда. Это делает ее еще более мощной и эффективной. Расширение параметров позволяет модели проводить более глубокий анализ контекста и языковых особенностей, а также улучшает ее способность к запоминанию информации и формированию более сложных и точных выводов.

T-Pro работает в двух режимах: ее можно как адаптировать под определенные бизнес-цели (Fine-tuning), так и использовать в режиме промптинга — то есть задавать команды в режиме диалога.

T-Lite

Она была впервые представлена в июле 2024 года, и за последние несколько месяцев смогла получить целый ряд улучшений:

теперь модель лучше понимает контекст, без труда обрабатывает сложные запросы и выдает более точные ответы;
создает тексты, которые практически невозможно отличить от написанных человеком, — с меньшим количеством ошибок и повышенной логической связностью;
легко дообучается под потребности различных сфер деятельности — от финансовой и медицинской до торговой и образовательной.

По результатам нескольких индустриальных бенчмарков лучшей в категории открытых моделей до 10 миллиардов параметров стала T-Lite.

римечательно, что если использовать модели совместно с открытой библиотекой Turbo Alignment, то компаниям не придется создавать ИИ-приложения с нуля — можно будет применять уже существующие инструменты.

Расширяющийся доступ к открытым большим языковым моделям способствует более быстрому развитию стартапов и малых предприятий, которым раньше не хватало ресурсов для разработки собственных моделей.

Кстати, а вы знали, что на «Сделано у нас» статьи публикуют посетители, такие же как и вы? И никакой премодерации, согласований и разрешений! Любой может добавить новость. А лучшие попадут в наш Телеграм @sdelanounas_ru. Подробнее о том как работает наш сайт здесь👈

Источник: www.techinsider.ru

Другие публикации по теме

Поделись позитивом в своих соцсетях

информационные технологии, ИИ

0
termometrix
28.01.2517:08:06

«Шокирующее китайское достижение в области искусственного интеллекта под названием DeepSeek обрушило рынок акций США"
Американские акции резко упали в понедельник, а производитель чипов Nvidia потерял почти 600 миллиардов долларов рыночной стоимости после того, как неожиданное продвижение китайской компании по искусственному интеллекту DeepSeek поставило под угрозу ауру непобедимости, окружающую технологическую индустрию Америки.
DeepSeek, стартап, которому исполнился год, на прошлой неделе продемонстрировал ошеломляющие возможности: он представил модель искусственного интеллекта, подобную ChatGPT, под названием R1, которая обладает всеми знакомыми возможностями и работает за небольшую часть стоимости популярного искусственного интеллекта OpenAI, Google или Meta. модели. Китайская компания заявила, что потратила всего 5,6 миллиона долларов на вычислительную мощность своей базовой модели по сравнению с сотнями миллионов или миллиардами долларов, которые американские компании тратят на свои технологии искусственного интеллекта.
Потрясающее достижение относительно неизвестного стартапа в области ИИ становится еще более шокирующим, если учесть, что Соединенные Штаты в течение многих лет работали над ограничением поставок мощных чипов ИИ в Китай, ссылаясь на соображения национальной безопасности. Это означает, что DeepSeek смог создать свою недорогую модель на чипах искусственного интеллекта с недостаточной мощностью.
Американские технологические акции в понедельник обрушились.
Nvidia (NVDA), ведущий поставщик чипов ИИ, упала почти на 17% и потеряла 588,8 млрд долларов рыночной стоимости — это самая большая рыночная стоимость, которую когда-либо теряла компания за один день, более чем вдвое превысив предыдущий рекорд в 240 млрд долларов, установленный Meta почти три года назад."
https://edition...hina/index.html

#1296117 ↑
0
termometrix
28.01.2517:09:09

«Алгоритмы решают все."
Добрая старая математика.

Отредактировано: termometrix~17:13 28.01.25

#1296118 ↑

Для комментирования вам необходимо зарегистрироваться и войти на сайт,

Обсуждаемые

КЭМЗ приступил к наземным испытаниям первого летного образца легкого вертолета АП-55

АО «Концерн Кизлярский электромеханический завод» начал наземные испытания новейшего образца вертолета АП-55. Текущий этап включает проверку летного образца, разработанного в рамках ... 6
«Металлоинвест» приобрёл для Лебединского ГОКа самый мощный серийный российский бульдозер

Гусеничный бульдозер Четра Т-40 будет работать в карьере ГОКа. Высокую производительность машине обеспечивает двигатель мощностью 660 л.с. и отвал ёмкостью 21 м3.Габаритные размеры отвала (... 3
Павловский автобусный завод представил новую модель CITYMAX 8

Автобус длиной 8,1 м вмещает 32 пассажира, включая 21 основное сидячее место и три мягких откидных кресла. Широкая двухстворчатая дверь без ступенек и накопительная площадка с мес... 2
ОДК создала турбогенератор на базе авиадвигателя для «Ансата» для гибридных беспилотников

Объединенная двигателестроительная корпорация Ростеха разработала турбогенератор мощностью 400 кВт на базе двигателя для вертолетов легкого класса ВК-650 В. Новое изделие не имеет анал... 2
Росатом изготовил оборудование для реактора БРЕСТ-ОД-300

Заводы «Атоммаш» и «Ижора» (Машиностроительный дивизион «Росатома») изготовили оборудование, которое станет основой энергокомплекса IV поколения — ... 2