Tajna terabytes ta’ zkuk CI lil LLM
Kummenti
Mewayz Team
Editorial Team
Il-Minjiera tad-Deheb Moħbija Seduta fil-Pipeline CI Tiegħek
Kull tim tal-inġinerija jiġġenerahom. Miljuni ta 'linji, kull jum wieħed - timestamps, traċċi ta' munzell, riżoluzzjonijiet ta 'dipendenza, riżultati tat-test, artifacts tal-bini, u messaġġi ta' żball kriptiċi li jiskrollaw aktar malajr milli kulħadd jista 'jaqra. Iċ-zkuk tas-CI huma d-dħaħen tal-egżost tal-iżvilupp modern tas-softwer, u għall-biċċa l-kbira tal-organizzazzjonijiet, huma ttrattati eżattament bħall-egżost: ivventilat fil-ħażna u minsija. Imma x'jiġri jekk dawk ir-zkuk fihom mudelli li jistgħu jbassru l-fallimenti qabel ma jseħħu, jidentifikaw il-konġestjonijiet li jiswew lit-tim tiegħek mijiet ta 'sigħat kull tliet xhur, u jiżvelaw kwistjonijiet sistemiċi li qatt ma jara l-ebda inġinier wieħed? Iddeċidejna li nsiru nafu billi ngħaddu terabytes ta' data log CI f'mudell lingwistiku kbir — u dak li skoprejna biddel il-mod kif naħsbu dwar DevOps għal kollox.
Għaliex Iċ-Zkuk CI huma l-aktar Dejta sottoutilizzata fl-Inġinerija tas-Software
Ikkunsidra l-volum kbir. Tim ta 'l-inġinerija ta' daqs medju li jmexxi 200 bini kuljum f'diversi repożitorji jiġġenera bejn wieħed u ieħor 2-4 GB ta 'dejta mhux ipproċessata ta' log kuljum. Iktar minn sena, jiġifieri aktar minn terabyte ta’ test strutturat u semi-strutturat li jaqbad kull kumpilazzjoni, kull eżekuzzjoni ta’ suite ta’ test, kull pass ta’ skjerament, u kull modalità ta’ falliment li qatt iltaqgħet magħha s-sistema tiegħek. Huwa rekord arkeoloġiku sħiħ tal-produttività tal-organizzazzjoni tal-inġinerija tiegħek — u kważi ħadd ma jaqrah.
Il-problema mhix li d-dejta m'għandhiex valur. Huwa li l-proporzjon tas-sinjal għall-ħoss huwa brutali. Ġirja CI tipika tipproduċi eluf ta 'linji ta' output, u forsi 3-5 minn dawk il-linji fihom informazzjoni azzjonabbli. L-inġiniera jitgħallmu jiskennjaw għal test aħmar, grep għal "FAILED", u jimxu 'l quddiem. Iżda l-mudelli li jimpurtaw l-aktar - it-test flaky li jfalli kull nhar ta 'Tlieta, id-dipendenza li żżid 40 sekonda għal kull bini, it-tnixxija tal-memorja li tfaċċa biss meta tliet servizzi speċifiċi jaħdmu fl-istess ħin - dawk il-mudelli huma inviżibbli fil-livell tal-log individwali. Huma joħorġu biss fuq skala.
Għodod tradizzjonali ta' analiżi ta' log bħal ELK stacks u Datadog jistgħu jaggregaw metriċi u taqbiliet tal-kliem kjavi tal-wiċċ, iżda jissieltu mal-kumplessità semantika tal-output CI. Messaġġ ta 'falliment tal-bini li jaqra"konnessjoni rrifjutata fuq il-port 5432"u wieħed li jaqra"FATAL: l-awtentikazzjoni tal-password falliet għall-'iskjerament' tal-utent" huma t-tnejn fallimenti relatati mad-database, iżda għandhom kawżi u soluzzjonijiet kompletament differenti. Il-fehim ta' dik id-distinzjoni jeħtieġ it-tip ta' raġunament kuntestwali li, sa ftit ilu, il-bnedmin biss setgħu jipprovdu.
L-Esperiment: It-Tmigħ ta' 3.2 Terabytes ta' Storja tal-Bini għal LLM
Is-setup kien sempliċi fil-kunċett u ħmarillejl fl-eżekuzzjoni. Ġbarna 14-il xahar ta’ zkuk CI minn pjattaforma li taqdi aktar minn 138,000 utent — li tkopri bini f’diversi servizzi, ambjenti, u miri ta’ skjerament. Is-sett tad-dejta mhux ipproċessat wasal għal 3.2 terabytes: madwar 847 miljun linja ta 'log individwali li jkopru 1.6 miljun CI pipeline runs. Aħna qatgħu, inkorporaw, u indiċjajna din id-dejta, imbagħad bnejna pipeline ta' ġenerazzjoni miżjuda bl-irkupru (RAG) li seta' jwieġeb mistoqsijiet tal-lingwa naturali dwar l-istorja tal-bini tagħna.
L-ewwel sfida kienet l-ipproċessar minn qabel. zkuk CI mhumiex test nadif. Fihom kodiċijiet tal-kulur ANSI, bars tal-progress li jissostitwixxu lilhom infushom, checksums tal-artifact binarji, u timestamps f'mill-inqas erba' formati differenti skont liema għodda ġġenerathom. Għaddejna tliet ġimgħat biss fuq in-normalizzazzjoni — inneħħu l-istorbju, nistandardizzaw il-timestamps, u ttikkettjaw kull segment ta’ log b’metadejta dwar liema stadju tal-pipeline, repożitorju, fergħa, u ambjent kien jappartjeni għalih.
It-tieni sfida kienet l-ispiża. It-tmexxija tal-inferenza fuq terabytes tat-test mhix irħisa, anke b'ottimizzazzjoni aggressiva ta' qsim u rkupru. Aħna nħarqu permezz ta 'krediti ta' komputazzjoni sinifikanti matul l-ewwel xahar biss, l-aktar minħabba li l-approċċ inizjali tagħna kien inġenju wisq - bagħat wisq kuntest għal kull mistoqsija u ma nkunux selettivi biżżejjed dwar liema segmenti ta 'log kienu rilevanti. Sal-aħħar tat-tieni xahar, konna naqqasna l-ispejjeż għal kull mistoqsija b'87% permezz ta' strateġiji ta' inkorporazzjoni aħjar u sistema ta' rkupru f'żewġ stadji li użat mudell iżgħar biex tiffiltra minn qabel qabel ma bagħtet lill-akbar.
Ħames Mudelli li l-LLM Sabu Li l-Bnedmin Qatt Ma Kieku
Fl-ewwel ġimgħa tat-tmexxija tal-mistoqsijiet, is-sistema ħarġet għarfien li kien jieħu xhur analista uman biex jiskopri manwalment. Dawn ma kinux każijiet tat-tarf jew kurżitajiet — kienu kwistjonijiet sistemiċi li jnaddfu sigħat ta' inġinerija reali.
- Il-kaskata tad-dipendenza fantażma. Aġġornament wieħed ta' pakkett npm 9 xhur qabel kien introduċa dewmien ta' 22 sekonda għal kull build JavaScript. Id-dewmien kien moħbi minħabba li ħabat ma 'titjib tal-infrastruttura CI li għamel il-bini aktar mgħaġġel b'mod ġenerali. Net-net, il-bini deher aktar mgħaġġel, iżda setgħu kienu 22 sekonda aktar mgħaġġla xorta. Madwar 400+ bini JS kuljum, li kien2.4 sigħat ta 'komputazzjoni moħlija kuljum.
- Il-flake taż-żona tal-ħin. Suite tat-test kellha rata ta' falliment ta' 4.7% — għolja biżżejjed biex tkun tedjanti, baxxa biżżejjed li ħadd ma pprijoritizza li jirranġaha. L-LLM identifika li l-fallimenti kienu jikkorrelataw kważi perfettament mal-bini attivat bejn 23:00 u 01:00 UTC, meta funzjoni ta' tqabbil tad-data qasmet il-konfini tal-ġurnata. Fix-żewġ linji eliminati l-flake għal kollox.
- Ix-xejra ta' rollback silenzjuż. L-iskjerament għall-istadju rnexxielu 99.2% tal-ħin, iżda l-LLM innota li 31% tal-iskjeramenti ta' staging "suċċess" kienu segwiti minn skjerament ieħor tal-istess servizz fi żmien 45 minuta — li jissuġġerixxi li l-ewwel skjerament inkisret funzjonalment minkejja li għadda l-kontrolli kollha. Dan wassal biex skopra li kien qed jgħaddi test ta' integrazzjoni minħabba tweġibiet fil-cache minn servizz mock.
- Il-konġestjoni tat-Tnejn filgħodu. Il-ħinijiet tal-kju tal-bini żdiedu b'340% kull nhar ta' Tnejn bejn id-9:00 u l-10:30 AM ħin lokali, minħabba li l-iżviluppaturi li kienu ilhom jaħdmu fi tmiem il-ġimgħa kollha mbuttaw il-bidliet tagħhom qabel l-istandup. It-tiswija ma kinitx teknika — kienet operattiva: tqassam l-iskeda tal-iskala tal-grupp tar-runner CI biex jantiċipaw iż-żidiet tat-Tnejn.
- Il-bandiera tal-kompilatur li ħadd ma stabbilixxa. 67% tal-bini C++ kienu qed jaħdmu mingħajr kumpilazzjoni inkrementali attivata, u żiedet medja ta' 3.8 minuti għal kull bini. Il-bandiera kienet iddokumentata fil-gwida tal-onboarding iżda qatt ma ġiet miżjuda mal-mudell tal-konfigurazzjoni tas-CI kondiviża.
"L-aktar bugs li jiswew ħafna flus mhumiex dawk li jikkraxxjaw l-applikazzjoni tiegħek. Huma dawk li jisirqu bil-kwiet 30 sekonda minn kull bini, kuljum, għal snin - sakemm fl-aħħar xi ħadd jistaqsi l-mistoqsija t-tajba tas-sett tad-dejta t-tajjeb."
Bini ta' Saff ta' Intelliġenza CI Prattiku
L-esperiment ikkonvinċina li l-analiżi tal-log li taħdem bl-LLM mhijiex novità — hija kapaċità operattiva ġenwina. Iżda biex tagħmilha prattika teħtieġ arkitettura maħsub. Ma tistax sempliċement tgħaddi zkuk mhux ipproċessati f'interface taċ-chat u tistenna tweġibiet utli. Is-sistema teħtieġ struttura, u jeħtieġ li tiġi integrata fil-flussi tax-xogħol li l-inġiniera diġà jużaw.
Stilajna fuq approċċ ta' tliet livelli. L-ewwel saff huwatriaġġ awtomatizzat: kull bini fallut awtomatikament jiġi kklassifikat skont il-kategorija tal-kawża ewlenija (infrastruttura, dipendenza, loġika tat-test, konfigurazzjoni, jew flake) b'punteġġ ta 'fiduċja. Dan waħdu naqqas iż-żmien medju biex jiġu rranġati għal fallimenti tal-bini b'34%, minħabba li l-inġiniera ma kellhomx aktar għalfejn iqattgħu 10 minuti jaqraw zkuk biss biex isibu fejn jibdew ifittxu. It-tieni saff huwadetezzjoni tat-tendenza: diġest ta 'kull ġimgħa li tfaċċa mudelli emerġenti — żieda fir-rati ta' falliment, iż-żieda fil-ħinijiet tal-bini, firem ġodda ta 'żbalji — qabel ma jsiru kritiċi. It-tielet saff huwainvestigazzjoni interattiva: interface fejn l-inġiniera jistgħu jistaqsu mistoqsijiet tal-lingwa naturali dwar l-istorja tal-bini, bħal "Għaliex is-servizz X falla aktar spiss wara r-rilaxx ta 'Marzu?" jew "X'inhi l-aktar kawża komuni ta' żbalji ta' timeout fil-pipeline tal-ħlas?"
Għat-timijiet li jmexxu operazzjonijiet kumplessi — speċjalment dawk li jimmaniġġjaw funzjonijiet kummerċjali multipli bħal CRM, fatturazzjoni, pagi, u analitika permezz ta' pjattaformi bħal Mewayz, li orkestra 207 moduli integrati — dan it-tip ta' osservabilità ssir saħansitra aktar kritika. Meta skjerament wieħed imiss mal-flussi tax-xogħol li jiffaċċjaw il-klijenti, il-loġika tal-kontijiet, u s-sistemi tal-HR simultanjament, il-fehim tal-interdipendenzi fil-pipeline tas-CI tiegħek mhuwiex fakultattiv. Huwa essenzjali biex tinżamm l-affidabbiltà li fuqha jiddependu aktar minn 138,000 utent.
💡 DID YOU KNOW?
Mewayz replaces 8+ business tools in one platform
CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.
Start Free →Dak li Ma Jaħdimx (Għadhom)
L-onestà hija importanti aktar mill-hype. Hemm limitazzjonijiet ċari għal dan l-approċċ li kull min jikkunsidrah għandu jifhem. LLMs allucinate, u meta alluċinaw dwar zkuk CI, ir-riżultati jistgħu jkunu żbaljati b'mod konvinċenti. Rajna s-sistema b'kunfidenza tattribwixxi falliment tal-bini għal kunflitt ta' dipendenza li qatt ma kien jeżisti, komplut b'numri tal-verżjoni fabbrikati. Il-pipeline RAG inaqqas dan b'mod sinifikanti, iżda ma jeliminahx. Kull għarfien li tipproduċi s-sistema għad teħtieġ verifika umana qabel azzjoni.
L-iskala tibqa' sfida. Filwaqt li s-sistema ta' rkupru tista' timmaniġġja l-mistoqsijiet b'mod effiċjenti, l-indiċjar inizjali u l-inkorporazzjoni ta' zkuk ġodda jiswew ħafna flus. Aħna nipproċessaw madwar 800,000 linja ġdida ta 'log kuljum, u nżommu l-indiċi frisk jeħtieġ infrastruttura dedikata. Għal timijiet iżgħar, il-kalkolu tal-kost-benefiċċju jista' ma jiffavorixxix dan l-approċċ — għall-inqas għadu mhux. Hekk kif l-ispejjeż tal-mudell ikomplu jonqsu (waqsu madwar 90% fl-aħħar 18-il xahar għal kapaċità ekwivalenti), l-ekonomija se tinbidel.
Hemm ukoll il-kwistjoni tas-sigurtà. Iz-zkuk CI jista 'jkun fihom sigrieti — ċwievet API, strings ta' konnessjoni, URLs interni — minkejja l-aħjar sforzi biex tqaxxarhom. Li tibgħat din id-dejta lil APIs LLM esterni tintroduċi riskju. Aħna nimmitikaw dan b'pipeline ta 'scrubbing lokali u billi nwettqu inferenza fuq mudelli self-hosted għal repożitorji sensittivi, iżda żżid il-kumplessità u l-ispiża. It-timijiet għandhom jevalwaw bir-reqqa l-mudell tat-theddid tagħhom qabel ma jimplimentaw xi ħaġa simili.
Nibda Mingħajr Terabytes
M'għandekx bżonn sett ta' dejta massiv jew tim dedikat ta' inġinerija ML biex tibda tiġbed il-valur mir-reġistri CI tiegħek. Hawn punt tat-tluq pragmatiku li kwalunkwe tim bi ftit mijiet ta' bini fil-ġimgħa jista' jimplimenta:
- Ibda bil-klassifikazzjoni tal-falliment. Esporta l-aħħar 90 jum tiegħek ta' zkuk tal-bini falluti. Uża kwalunkwe API LLM biex tikklassifika kull falliment f'kategoriji. Anke tassonomija sempliċi (infra vs. code vs. config vs. flake) tipprovdi valur immedjat għall-prijoritizzazzjoni.
- Ssegwi t-tendenzi tat-tul tal-bini. Parse timestamps mir-reġistri tiegħek biex toħloq serje ta' żmien ta' dewmien tal-bini għal kull stadju tal-pipeline. Għalf anomaliji lil LLM b'kuntest ta' log tal-madwar u staqsi għal ipoteżi ta' kawża ewlenija.
- Awtomatizza l-mistoqsijiet "ovvji". Stabbilixxi ganċ ta' wara l-falliment li jibgħat l-aħħar 500 linja ta' build fallut lil LLM bil-pront: "Iġbor fil-qosor dan in-nuqqas CI f'sentenza waħda u ssuġġerixxi l-aktar soluzzjoni probabbli." Dan waħdu jiffranka 5-10 minuti għal kull falliment għal kull inġinier fit-tim.
- Ibni arkivju li jista' jitfittex. Uża inkorporazzjonijiet biex tagħmel l-istorja tar-reġistri tiegħek mistoqsija b'lingwa naturali. Għodod bħal LangChain u LlamaIndex jagħmlu dan aċċessibbli b'mod sorprendenti, anke għal timijiet mingħajr esperjenza ML.
Iċ-ċavetta hija li tibda żgħira, tivvalida li l-għarfien huwa preċiż, u tespandi gradwalment. L-ekosistema tal-għodda għal dan it-tip ta' analiżi qed timmatura malajr, u dik li kienet meħtieġa infrastruttura tad-dwana sena ilu hija dejjem aktar disponibbli bħala komponenti fuq l-ixkaffa.
Il-Futur Huwa Intelliġenza Operattiva
Dak li qed nitkellmu dwaru mhux biss analiżi log — hija bidla fundamentali lejn intelliġenza operattiva. L-istess approċċ li jaħdem għal zkuk CI japplika għal biljetti ta 'appoġġ għall-klijenti, data tal-pipeline tal-bejgħ, tranżazzjonijiet finanzjarji, u flussi tax-xogħol operattivi. Il-linja komuni hija li l-organizzazzjonijiet jiġġeneraw ammonti vasti ta' dejta ta' test semi-strutturata li fiha mudelli azzjonabbli, u l-LLMs huma adattati b'mod uniku biex isibu dawk il-mudelli.
Dan hu għaliex il-pjattaformi li jiċċentralizzaw l-operazzjonijiet tan-negozju għandhom vantaġġ strutturali. Meta d-dejta tas-CRM, il-ġestjoni tal-proġetti, il-fatturazzjoni, ir-rekords tal-HR u l-analiżi tiegħek kollha jgħixu f'sistema waħda - bħalma jagħmlu għat-timijiet li jużaw l-arkitettura tal-moduli integrati ta 'Mewayz - il-potenzjal għall-intelliġenza bejn id-dominji jimmultiplika. Mudell fir-reġistri tas-CI tiegħek jista' jikkorrelata ma' l-annullament tal-klijenti. Żieda fil-biljetti ta' appoġġ tista' tbassar falliment fl-iskjerament. Dawn il-konnessjonijiet isiru viżibbli biss meta d-data tgħix f'sistemi konnessi aktar milli f'silos iżolati.
It-timijiet li se jirnexxu fl-għaxar snin li ġejjin mhumiex neċessarjament dawk bl-aktar inġiniera jew l-akbar baġits. Huma dawk li jitgħallmu jisimgħu d-dejta tagħhom stess — inklużi t-terabytes tagħha li ilhom jarmu. Ir-reġistri tas-CI tiegħek qed jitkellmu. Il-mistoqsija hija jekk intix lest li tisma' dak li għandhom xi jgħidu.
Mistoqsijiet Frekwenti
Jistgħu l-LLMs verament isibu mudelli utli fir-reġistri CI?
Assolutament. Mudelli lingwistiċi kbar jisbqu fl-identifikazzjoni ta' mudelli rikorrenti fit-test massiv mhux strutturat. Meta jiġu ppuntati lejn terabytes ta’ zkuk CI, jistgħu jissuperaw korrelazzjonijiet ta’ fallimenti, firem tat-test flaky, u kunflitti ta’ dipendenza li l-inġiniera tal-bniedem qatt ma jaqbdu manwalment. Iċ-ċavetta hija l-istrutturar tal-pipeline tal-inġestjoni b'mod korrett sabiex il-mudell jirċievi segmenti ta' zkuk imqattgħin b'mod xieraq u sintesi fil-kuntest aktar milli storbju mhux ipproċessat.
Liema tipi ta' fallimenti tas-CI jistgħu jiġu mbassra bl-użu ta' analiżi log?
L-analiżi tal-log immexxija mill-LLM tista' tbassar timeouts relatati mal-infrastruttura, fallimenti rikorrenti fir-riżoluzzjoni tad-dipendenza, ħabtiet tal-bini marbutin mal-memorja, u testijiet flaky attivati minn mogħdijiet ta' kodiċi speċifiċi. Tidentifika wkoll regressjonijiet bil-mod li jitkaxkru fejn il-ħinijiet tal-bini jiżdiedu gradwalment matul ġimgħat. It-timijiet li jużaw dan l-approċċ tipikament jaqbdu xejriet ta' fallimenti kaskata minn żewġ sa tliet sprints qabel ma jsiru inċidenti li jimblukkaw fl-iskjeramenti tal-produzzjoni.
Kemm dejta tal-log CI għandek bżonn qabel ma l-analiżi ssir siewja?
Mudelli sinifikanti tipikament joħorġu wara li jiġu analizzati 30 sa 90 jum ta' storja ta' pipeline kontinwa f'diversi fergħat. Settijiet ta' dejta iżgħar jagħtu għarfien fil-livell tal-wiċċ, iżda l-valur reali ġej mill-kontroreferenza ta' eluf ta' ġirjiet tal-bini. Għal timijiet li jimmaniġġjaw flussi tax-xogħol kumplessi flimkien mal-pipelines CI tagħhom, pjattaformi bħal Mewayz joffru 207 moduli integrati li jibdew minn $19/mo biex jiċċentralizzaw id-dejta operattiva fuq app.mewayz.com.
L-għoti ta' zkuk CI lil LLM huwa riskju għas-sigurtà?
Jista' jkun jekk jiġi mmaniġġjat bi traskuraġni. Ir-reġistri CI ħafna drabi jkun fihom varjabbli ambjentali, ċwievet API, URLs interni, u dettalji tal-infrastruttura. Qabel ma tipproċessa zkuk permezz ta' kwalunkwe LLM, trid timplimenta pipelines ta' redazzjoni robusti li jneħħu s-sigrieti, il-kredenzjali u l-informazzjoni identifikabbli personalment. Skjeramenti ta' mudelli li jkunu ospitati waħedhom jew fuq il-post inaqqsu l-esponiment b'mod sinifikanti meta mqabbla ma' li jintbagħtu logs mhux maħduma lil endpoints ta' inferenza bbażati fuq cloud ta' partijiet terzi.
Try Mewayz Free
All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.
Get more articles like this
Weekly business tips and product updates. Free forever.
You're subscribed!
Start managing your business smarter today
Join 6,207+ businesses. Free forever plan · No credit card required.
Ready to put this into practice?
Join 6,207+ businesses using Mewayz. Free forever plan — no credit card required.
Start Free Trial →Related articles
Hacker News
Why Zip drives dominated the 90s, then vanished almost overnight
Apr 19, 2026
Hacker News
Changes in the system prompt between Claude Opus 4.6 and 4.7
Apr 19, 2026
Hacker News
Ask HN: How did you land your first projects as a solo engineer/consultant?
Apr 19, 2026
Hacker News
SPEAKE(a)R: Turn Speakers to Microphones for Fun and Profit [pdf] (2017)
Apr 19, 2026
Hacker News
Binary GCD
Apr 19, 2026
Hacker News
The seven programming ur-languages
Apr 19, 2026
Ready to take action?
Start your free Mewayz trial today
All-in-one business platform. No credit card required.
Start Free →14-day free trial · No credit card · Cancel anytime