Жаңа сығу AI шығындарын азайта алады

09:46 / 30.03.2026·78·Технология

Google TurboQuant әдісін таныстырды, бұл тәсіл жасанды интеллектідегі ең ірі аппараттық мәселелердің бірі — жадқа бағытталған. Тек үлкенірек әрі қымбатырақ чиптерге ғана сүйенудің орнына, идея ірі тілдік модельдер мәтін жасаған кезде жадта сақтауы тиіс деректер көлемін қысқартуға негізделген. Бұл AI жүйелерін жасап жатқан компаниялар үшін де, жад чиптері нарығын бақылап отырған инвесторлар үшін де маңызды болуы мүмкін. Мұндай Adlrocha.substack.com хабарлайды.

Ірі тілдік модельдер бір уақытта бір токенді болжау арқылы жұмыс істейді және үнемі алдыңғы токендерге қайта жүгінеді. Мұны тиімді орындау үшін олар алдыңғы қадамдардағы key және value деректерін KV кэш деп аталатын жерде сақтайды. Бұл кэш бірдей есептеулерді қайталаудан құтқарады, бірақ ол әрбір жаңа токенмен бірге ұлғая береді. Ұзақ чаттарда, код жазу сессияларында немесе құжаттарды талдау тапсырмаларында жадқа сұраныс орасан зор болуы мүмкін.

TurboQuant дәл осы KV кэшке бағытталған. Бастапқы материалға сәйкес, бұл техника сақталған векторларды модель дәлдігіне елеулі зиян келтірмей сығады. Қарапайым айтқанда, ол GPU-дегі физикалық жадты азырақ пайдалана отырып, үлкен жад қорының артықшылықтарын сақтап қалуға тырысады. Бұл inference тиімділігін арттырып, жоғары өткізу қабілетті жады жеткізіліміне түсетін қысымды азайтуы мүмкін.

Егер мұндай тәсілдер ауқымды деңгейде тиімді екенін дәлелдесе, олар AI инфрақұрылымы туралы әңгімені сәл өзгертуі мүмкін. Озық жадқа сұраныс әлі де жоғары болып қалуы ықтимал, бірақ ақылдырақ сығу аппараттық қажеттіліктің қаншалықты жылдам өсетінін баяулатуы мүмкін. Сала үшін бұл көптеген адам тек аппараттық құралдар ғана шешеді деп күткен мәселенің бір бөлігін енді жақсырақ бағдарламалық жасақтама шеше бастауы мүмкін дегенді білдіреді.