DarkBERT: język cyberprzestępców trzeba znać

Dwa internetowe światy funkcjonują równolegle. Jeden jest dobrze znany, drugi – wtajemniczonym. W tzw. DarkNecie  funkcjonują nie tylko bohaterowie toczący walkę o wolność, równość i braterstwo. Pełno tam przestępców cyfrowych, szantażystów, handlarzy bronią i narkotykami. To złodzieje tożsamości, haseł do kont bankowych, autorzy złośliwych wirusów itp. Przeszukiwanie ich wpisów w poszukiwaniu niosących zagrożenie treści to nieludzki wysiłek. Dlatego badacze z Korei Południowej chcą do tego zaprzęgnąć maszynę. Opublikowali niedawno raport pt. „DarkBERT: model językowy dla ciemnej strony internetu”.

BERT to duży model językowy, który został przeszkolony na plikach z DarkNetu.

– DarkBERT radzi sobie ze skrajną różnorodnością leksykalną i strukturalną Dark Web, które mogą być szkodliwe dla budowania właściwej reprezentacji domeny – stwierdził badacz Youngjin Jin. – Wyniki naszej oceny pokazują, że model klasyfikacji oparty na DarkBERT przewyższa znane wcześniej i wytrenowane modele językowe.

Wyuczony przestępczego języka DarkBERT okazał się skuteczny w wykrywaniu wycieków ransomware, potencjalnie złośliwych wątków, wskazywał słowa kluczowe o zagrożeniach zdefiniowane jako „zestaw słów kluczowych, które są semantycznie powiązane z zagrożeniami i sprzedażą narkotyków za pomocą Dark Netu.” Przyszłość pokaże, czy organy ścigania zaczną z niego korzystać.

Zdjęcie zajawka: Cliff Hang/Pixabay

Udostępnij:

Powiązane posty

Zostaw komentarz