A lavinahatásnak még csak az elején járunk a ChatGPT-hez hasonló nagy nyelvi modellek (LLM) vadonba engedésével, de más GPT-k (Generative Pre-Trained Transformer, vagyis nagyjából Kiképzett Generatív Átalakító), nyílt forráskóddal párosulva, a mesterséges intelligenciát alkalmazó eszközök robbanásszerű növekedését indították el. Mint tudjuk, maga a ChatGPT is felhasználható rendkívül fejlett rosszindulatú programok létrehozására,
de mi a helyzet azokkal, amelyek képzését a legalapvetőbb etikai szabályokat sem tartó adatbázisból tanítják?
Mert már ilyen is van – számolt be a Tom’s Hardware. Az oldal szakértője azt jósolja, hogy ahogy telik az idő, az alkalmazott LLM-ek száma tovább emelkedik, és mindegyik saját területre fog specializálódni. Jó esetben gondosan összeállított kurátori adatokon képzik ki őket, mindig egy adott célra. Most egy újabb ilyen alkalmazás került be a köztudatba, de azzal a baljós eredménnyel, hogy őt nem ártatlan, kíváncsi feliratkozók neki feltett kérdésein, hanem sötét webről származó adatokon képeztek.
A DarkBERT, ahogy dél-koreai alkotói elnevezték, a 2019-ben kifejlesztett, nem túl sikeres RoBERTa architektúráján alapul. Kezdetben senki sem volt oda érte, de a kutatók rájöttek, hogy sokkal nagyobb teljesítményt is produkálhat, mint amit korábban feltételeztek róla. A modell a kiadásakor súlyosan alulképzett lehetett, ezért messze a maximális hatékonysága alatt teljesített.
Nem úgy a Dark Weben.
A modell kiképzéséhez a kutatók a Tor-hálózat anonimizáló tűzfalán keresztül engedték rá a Dark Webet, majd a nyers adatokat megszűrték (olyan technikákat alkalmazva, mint a deduplikáció, a kategóriakiegyenlítés vagy az adatok előfeldolgozása), hogy létrehozzanak egy Dark Web-adatbázist. Ennek az adatbázisnak az eredménye a DarkBERT, vagyis egy olyan modell megszületése, ami képes elemezni az új Dark Web-tartalmakat. Ezek ugye jellemzően saját dialektusokban és néha erősen kódolt üzenetekben íródnak, de annál hasznosabb információkat lehet kinyerni belőlük.
A kutatók kimutatták, hogy a DarkBERT felülmúlta a többi nagy nyelvi modellt, így lehetővé teszi a biztonsági kutatók és a bűnüldöző szervek számára, hogy mélyebbre ássanak le a sötét web alsó bugyraiba. További képzés és hangolás persze még inkább javíthatná a DarkBERT eredményeit, viszont még a mostani állapotáról sem adtak ki túl sok információt – a végső céljáról meg aztán végképp nem. Tartunk tőle, hogy a dél-koreaiak kísérlete csak egy újabb példája annak az egyelőre tökéletesen szabályozatlan vakrepülésnek, amit a technológiával művelnek különböző cégek és tudóscsoportok.
Bódi Dániel 2023. 08. 02. - A filmkészítők élete sem játék és mese, főleg akkor…
Gábor János 2022.12.29. - A világháló messze legszórakoztatóbb tartalmai közé tartoznak a hülye kérdések, amelyek…
Gábor János 2023.07.04. - Nem sok kétséget hagy a Bulimia Project kutatásának eredménye arról, hogy…
Bódi Dániel 2023.07.03. - "A támadásokat a B-gomb lenyomásával kerülheted el. Ne felejtsd, a HP-potion…
RP 2023.07.05. - A videókártyáknál manapság GDDR6 és GDDR6X memóriákkal találkozhatunk, ha végigolvassuk a gyártói…
Bódi Dániel 2024.02.02. - Érdemes most már megtanulni, hogy a magyar előfizetők különösen jól járnak…