Янги сиқиш AI харажатларини камайтириши мумкин

Google ТурбоҚуант'ни тақдим этди, бу усул сунъий интеллектнинг энг катта аппарат муаммоларидан бири — хотирага қаратилган. Фақат каттароқ ва қимматроқ чипларгагина таяниш ўрнига, ғоя катта тил моделларига матн яратиш пайтида хотирада сақлаши керак бўладиган маълумот ҳажмини қисқартиришдан иборат. Бу AI тизимларини қураётган компаниялар ва хотира чиплари бозорини кузатаётган инвесторлар учун муҳим бўлиши мумкин. Бу ҳақда Adlrocha.substack.com хабар беради.
Катта тил моделлари бир вақтда биттадан токенни башорат қилиш орқали ишлайди ва доим олдинги токенларга қайта мурожаат қилади. Буни самарали бажариш учун улар аввалги босқичлардаги кей ва валуе маълумотларини KV кеш деб аталадиган жойда сақлайди. Бу кеш бир хил ҳисоб-китобларни такрорлашнинг олдини олади, аммо у ҳар бир янги токен билан катталашиб боради. Узоқ чатларда, код ёзиш сессияларида ёки ҳужжатларни таҳлил қилиш вазифаларида хотира талаби ниҳоятда катта бўлиб кетиши мумкин.
TurboQuant айнан шу KV кешни нишонга олади. Манба материалига кўра, бу техника сақланаётган векторларни модел аниқлигида сезиларли йўқотиш келтириб чиқармасдан сиқади. Содда қилиб айтганда, у GPU даги жисмоний хотирани камроқ ишлатган ҳолда катта хотира омборининг афзалликларини сақлаб қолишга уринади. Бу инференcе самарадорлигини ошириши ва юқори ўтказувчанликка эга хотира таъминотига босимни камайтириши мумкин.
Агар бундай усуллар катта миқёсда самарали эканини исботласа, улар AI инфратузилмаси ҳақидаги мунозарани бироз ўзгартириши мумкин. Илғор хотирага талаб эҳтимол кучли бўлиб қолади, аммо ақллироқ сиқиш аппаратга бўлган эҳтиёж қанчалик тез ўсишини камайтириши мумкин. Саноат учун бу шуни англатадики, яхшироқ дастурий таъминот кўпчилик фақат аппарат ҳал қилади деб кутган муаммонинг бир қисмини ҳал қила бошлаши мумкин.
“Zamin”ни Telegram'да ўқинг!