На платформе GitHub опубликован проект Z80-μLM — языковая модель, обладающая размером всего 40 КБ, которая может работать на 8-битном процессоре Z80 с 64 КБ оперативной памяти. Вся система, включая вывод, веса и интерфейс для общения, помещается в файл формата .COM.
Автор, столкнувшись с ограничениями, применил ряд компромиссов, таких как хеширование триграмм, что позволяет модели быть устойчивой к опечаткам, хотя это и влияет на порядок слов. Использование 16-битной целочисленной математики и детальная обработка обучающих данных стали ключевыми аспектами разработки.
Процесс обучения был адаптирован с учетом квантования, что позволило эффективно учитывать ограничения кода. По словам разработчика, на создание данных для 20 вопросов было затрачено всего несколько долларов на API Claude. Модель можно обучать на Python и экспортировать в бинарные файлы формата CP/M .COM. Она не предназначена для написания электронных писем, но способна играть в упрощенную версию игры «20 вопросов» и поддерживать простые беседы с выраженной индивидуальностью.
tasani.ru

