Reklama

Analiza setek tysięcy haseł Polaków. Co wiemy?

W sieci można znaleźć wiele list zawierających maile i hasła Polek i Polaków
W sieci można znaleźć wiele list zawierających maile i hasła Polek i Polaków
Autor. freepik.com

Hasła nie powinny być jedynym zabezpieczeniem naszych kont, co nie zwalnia nas z konieczności dbania o ich odpowiednią złożoność. Postanowiliśmy przeanalizować setki tysięcy linijek, zawierających maile i hasła Polek i Polaków. Oto, co udało nam się znaleźć.

Dane logowania często pojawiają się w sieci na dwa sposoby:

  • jako hashe (funkcje skrótu, z założenia nieodwracalne) z wykradzionych baz danych;
  • jako tekst (zazwyczaj wraz z adresami e-mail), wykradane m.in. za sprawą infostealerów, czyli złośliwego oprogramowania działającego głownie w tym celu.

Pierwszą kategorię mogliśmy zaobserwować w Polsce, m.in. podczas ataku grupy FunkSec na sklep z armaturą łazienkową czy wycieku danych z strony dla modelek. Tym razem skupiliśmy się na tzw. combolistach, czyli plikach tekstowych składających się zazwyczaj z adresów e-mail oraz haseł. Więcej informacji o tym zagadnieniu można znaleźć w ciekawym artykule Troya Hunta, założyciela HaveIBeenPwned.

Nieuprawnione wykorzystywanie danych logowania, niezależnie od sposobu ich pozyskania, oznacza złamanie art. 267 Kodeksu Karnego, co jest zagrożone karą pozbawienia wolności do lat 2. W 2024 zarzuty za włamanie „z ciekawości” na skrzynkę mailową Michała Dworczyka usłyszała minimum jedna osoba. Niemożliwe jest przetestowanie tego, czy dane dostępowe do kont omawiane w artykule są wciąż aktywne. Artykuł powstał w celach edukacyjnych i nie ma na celu promowania działania niezgodnego z prawem.

Czytaj też

Reklama

Listy maili i haseł

Na znanym forum hakerskim pojawiło się kilka postów, które informowały o rzekomych polskich listach mail i haseł. Pliki omawiane w artykule zostały opublikowane w czerwcu 2025 roku, lecz najprawdopodobniej wiele z nich pochodzi sprzed kilku czy kilkunastu lat.

Co ważne – niektóre combolisty zawierają dane pochodzące spoza pożądanego zakresu. Spośród siedmiu pobranych plików konieczne było porzucenie dwóch z nich, ponieważ zawierały wiele danych niedotyczących polskich użytkowników sieci lub były sztucznie wygenerowane w celu potencjalnego zarobku. Pozostałe pięć plików tekstowych składało się z 1 088 663 linijek.

Analiza haseł - potwórzenia

Pierwszym krokiem było wyodrębnienie haseł z pliku. Listy składają się przede wszystkim z linijek w formacie „mail:hasło” lub „mail;hasło”. Linuksowe polecenie „cut” pozwala uwzględnić dane jedynie po określonym znaku, dzięki czemu w prosty sposób uzyskaliśmy listę ponad miliona haseł.

W idealnym świecie konkretne hasło powinno być wykorzystywane maksymalnie jeden raz. Niestety tak się nie stało. Dzięki użyciu polecenia „sort” udało się nam znaleźć 460 130 haseł, które występują minimum raz. Warto przy tym dodać, że najprawdopodobniej niektóre rekordy powtarzają się.

Do odrębnego pliku zapisaliśmy hasła, które powtarzają się. Było ich 335 123 – należy tutaj zaznaczyć, że niektóre z nich występują zdecydowanie więcej niż raz, stąd pomnożenie przez dwa i dodanie do puli unikalnych haseł nie zwróci prawdziwego wyniku.

Czytaj też

Analiza haseł – unikalne

Kolejnym etapem było posortowanie unikalnych haseł od najdłuższych do najkrótszych. W przypadku łamania hashy często bardzo utrudnione jest odgadnięcie kombinacji składających się z jak największej ilości znaków, lecz w tym przypadku jest nieco inaczej – infostealery przechwytują je w postaci tekstowej i nie musimy łamać jakichkolwiek funkcji skrótu.

Najdłuższe z znalezionych haseł miały po 31 znaków. Trzydziestoznakowych fraz było ponad 50. Są dłuższe od tych, które zazwyczaj udawało się odzyskiwać z wycieków danych. Wiele z haseł musiało być ocenzurowanych, lecz można z nich wywnioskować, że w hasłach bywają wykorzystywane:

  • imiona i nazwiska;
  • daty urodzenia;
  • proste ciągi liczbowe.
35 najdłuższych haseł z pliku
35 najdłuższych haseł z pliku
Autor. Opracowanie własne

Warto jednak porównać to, jakiej długości hasła znajdowały się w zbiorze. Nie będzie zaskoczeniem, że na pierwszej lokacie plasują się ośmioznakowe hasła (często minimalny wymóg stron).

Porównanie liczby znaków oraz liczby wystąpień
Porównanie liczby znaków oraz liczby wystąpień
Autor. Opracowanie własne wraz z wykorzystaniem AI

Czytaj też

Reklama

Porównanie z innymi hasłami

Warto jednocześnie porównać to, jak poniższy zbiór prezentuje się z odgadniętymi hashami haseł z wycieków z sklepu z bateriami oraz platformy dla modelek. Poniżej znajdują się procentowe porównanie długości fraz.

Możemy zauważyć, że niezależnie od zbioru dominują hasła o długości 8 – 10 znaków. Jednocześnie wykres obrazujący hasła z combolist jest o wiele bardziej spłaszczony od tego ze strony dla modelek. Na bazie porównania złamanych hashy ze sklepu z armaturą łazienkową z combolistami widzimy również, że wartości złamanych funkcji skrótu mają przebieg bliski liniowemu.

W przypadku combolist wartości są bardziej skokowe, tzn. mają mniej przewidywalny przebieg. Warto również wskazać na delikatny wzrost wartości wokół 20-znakowych haseł.

Procentowy rozkład haseł
Procentowy rozkład haseł
Autor. Opracowanie własne z wykorzystaniem AI
Wykresy stworzone z wykorzystaniem rozkładu normlanego
Wykresy stworzone z wykorzystaniem rozkładu normlanego
Autor. Opracowanie własne z wykorzystaniem AI
Udział procentowy haseł o długości 8-20 znaków
Udział procentowy haseł o długości 8-20 znaków
Autor. Opracowanie własne z wykorzystaniem AI

Czytaj też

Reklama

Łamanie hashy słownikiem

Skoro combolisty zawierają hasła w formie tekstu, można ich użyć do łamania hashy z wspomnianych wycieków. Z racji na to, że wspomniane platformy wykorzystywały dwa różne algorytmy (SHA-1 i MD5), proces ten został dokonany oddzielnie.

Rozpoczęliśmy proces łamania 176 429 hashy SHA-1 i 54 283 hashy MD5. Udało się nam złamać 5284 hashy MD5 i 5535 hashy SHA-1, przy czym 1192 z nich powtarzało się (było w dwóch zbiorach jednocześnie). Po usunięciu duplikatów udało się nam odgadnąć łącznie 9627 hashy.

Wyniki polecenia hashcat
Wyniki polecenia hashcat
Autor. Opracowanie własne

Postanowiliśmy również zbadać zawartość oraz długość haseł w wspomnianych zbiorach. 25 najdłuższych haseł prezentuje się następująco:

Najdłuższe hasła
Najdłuższe hasła
Autor. Opracowanie własne

Czytaj też

Reklama

Maile w domenie gov.pl i edu.pl

W plikach znajdowały się łącznie 42 maile w domenie „gov.pl”. Oczywiście to na 100% nie oznacza, że ktoś posługiwał się określonymi danymi logowania – rekordy nie zawsze zawierają faktyczne hasła.

Maili w domenie „edu.pl” było aż 3406. Rodzi to możliwość wycieków danych podobnych do tego, który miał miejsce poprzez stosowanie tego samego hasła w celach prywatnych oraz do SIOEZ CKE.

Rekordy w domenie gov.pl
Rekordy w domenie gov.pl
Autor. Opracowanie własne

Podsumowanie

Dbajmy o nasze hasła, lecz nie zapominajmy o dwuetapowym uwierzytelnianiu, które chroni nasze konta w przypadku wycieku danych logowania. Warto również zastrzec swój numer PESEL.

Hasło z dużą ilością znaków specjalnych nie musi być lepsze od dłuższego bez takich znaków. Wytyczne w tym temacie szczegółowo opisał CERT Polska.

Czytaj też

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].

Reklama
Reklama

WYCIEKI DANYCH z firm. JAK ZAPOBIEGAĆ wynoszeniu danych przez pracowników?

Materiał sponsorowany

Komentarze

    Reklama