Analiza setek tysięcy haseł Polaków. Co wiemy?

Autor. freepik.com
Hasła nie powinny być jedynym zabezpieczeniem naszych kont, co nie zwalnia nas z konieczności dbania o ich odpowiednią złożoność. Postanowiliśmy przeanalizować setki tysięcy linijek, zawierających maile i hasła Polek i Polaków. Oto, co udało nam się znaleźć.
Dane logowania często pojawiają się w sieci na dwa sposoby:
- jako hashe (funkcje skrótu, z założenia nieodwracalne) z wykradzionych baz danych;
- jako tekst (zazwyczaj wraz z adresami e-mail), wykradane m.in. za sprawą infostealerów, czyli złośliwego oprogramowania działającego głownie w tym celu.
Pierwszą kategorię mogliśmy zaobserwować w Polsce, m.in. podczas ataku grupy FunkSec na sklep z armaturą łazienkową czy wycieku danych z strony dla modelek. Tym razem skupiliśmy się na tzw. combolistach, czyli plikach tekstowych składających się zazwyczaj z adresów e-mail oraz haseł. Więcej informacji o tym zagadnieniu można znaleźć w ciekawym artykule Troya Hunta, założyciela HaveIBeenPwned.
Nieuprawnione wykorzystywanie danych logowania, niezależnie od sposobu ich pozyskania, oznacza złamanie art. 267 Kodeksu Karnego, co jest zagrożone karą pozbawienia wolności do lat 2. W 2024 zarzuty za włamanie „z ciekawości” na skrzynkę mailową Michała Dworczyka usłyszała minimum jedna osoba. Niemożliwe jest przetestowanie tego, czy dane dostępowe do kont omawiane w artykule są wciąż aktywne. Artykuł powstał w celach edukacyjnych i nie ma na celu promowania działania niezgodnego z prawem.
Czytaj też
Listy maili i haseł
Na znanym forum hakerskim pojawiło się kilka postów, które informowały o rzekomych polskich listach mail i haseł. Pliki omawiane w artykule zostały opublikowane w czerwcu 2025 roku, lecz najprawdopodobniej wiele z nich pochodzi sprzed kilku czy kilkunastu lat.
Co ważne – niektóre combolisty zawierają dane pochodzące spoza pożądanego zakresu. Spośród siedmiu pobranych plików konieczne było porzucenie dwóch z nich, ponieważ zawierały wiele danych niedotyczących polskich użytkowników sieci lub były sztucznie wygenerowane w celu potencjalnego zarobku. Pozostałe pięć plików tekstowych składało się z 1 088 663 linijek.
Analiza haseł - potwórzenia
Pierwszym krokiem było wyodrębnienie haseł z pliku. Listy składają się przede wszystkim z linijek w formacie „mail:hasło” lub „mail;hasło”. Linuksowe polecenie „cut” pozwala uwzględnić dane jedynie po określonym znaku, dzięki czemu w prosty sposób uzyskaliśmy listę ponad miliona haseł.
W idealnym świecie konkretne hasło powinno być wykorzystywane maksymalnie jeden raz. Niestety tak się nie stało. Dzięki użyciu polecenia „sort” udało się nam znaleźć 460 130 haseł, które występują minimum raz. Warto przy tym dodać, że najprawdopodobniej niektóre rekordy powtarzają się.
Do odrębnego pliku zapisaliśmy hasła, które powtarzają się. Było ich 335 123 – należy tutaj zaznaczyć, że niektóre z nich występują zdecydowanie więcej niż raz, stąd pomnożenie przez dwa i dodanie do puli unikalnych haseł nie zwróci prawdziwego wyniku.
Czytaj też
Analiza haseł – unikalne
Kolejnym etapem było posortowanie unikalnych haseł od najdłuższych do najkrótszych. W przypadku łamania hashy często bardzo utrudnione jest odgadnięcie kombinacji składających się z jak największej ilości znaków, lecz w tym przypadku jest nieco inaczej – infostealery przechwytują je w postaci tekstowej i nie musimy łamać jakichkolwiek funkcji skrótu.
Najdłuższe z znalezionych haseł miały po 31 znaków. Trzydziestoznakowych fraz było ponad 50. Są dłuższe od tych, które zazwyczaj udawało się odzyskiwać z wycieków danych. Wiele z haseł musiało być ocenzurowanych, lecz można z nich wywnioskować, że w hasłach bywają wykorzystywane:
- imiona i nazwiska;
- daty urodzenia;
- proste ciągi liczbowe.

Autor. Opracowanie własne
Warto jednak porównać to, jakiej długości hasła znajdowały się w zbiorze. Nie będzie zaskoczeniem, że na pierwszej lokacie plasują się ośmioznakowe hasła (często minimalny wymóg stron).

Autor. Opracowanie własne wraz z wykorzystaniem AI
Czytaj też
Porównanie z innymi hasłami
Warto jednocześnie porównać to, jak poniższy zbiór prezentuje się z odgadniętymi hashami haseł z wycieków z sklepu z bateriami oraz platformy dla modelek. Poniżej znajdują się procentowe porównanie długości fraz.
Możemy zauważyć, że niezależnie od zbioru dominują hasła o długości 8 – 10 znaków. Jednocześnie wykres obrazujący hasła z combolist jest o wiele bardziej spłaszczony od tego ze strony dla modelek. Na bazie porównania złamanych hashy ze sklepu z armaturą łazienkową z combolistami widzimy również, że wartości złamanych funkcji skrótu mają przebieg bliski liniowemu.
W przypadku combolist wartości są bardziej skokowe, tzn. mają mniej przewidywalny przebieg. Warto również wskazać na delikatny wzrost wartości wokół 20-znakowych haseł.

Autor. Opracowanie własne z wykorzystaniem AI

Autor. Opracowanie własne z wykorzystaniem AI

Autor. Opracowanie własne z wykorzystaniem AI
Czytaj też
Łamanie hashy słownikiem
Skoro combolisty zawierają hasła w formie tekstu, można ich użyć do łamania hashy z wspomnianych wycieków. Z racji na to, że wspomniane platformy wykorzystywały dwa różne algorytmy (SHA-1 i MD5), proces ten został dokonany oddzielnie.
Rozpoczęliśmy proces łamania 176 429 hashy SHA-1 i 54 283 hashy MD5. Udało się nam złamać 5284 hashy MD5 i 5535 hashy SHA-1, przy czym 1192 z nich powtarzało się (było w dwóch zbiorach jednocześnie). Po usunięciu duplikatów udało się nam odgadnąć łącznie 9627 hashy.

Autor. Opracowanie własne
Postanowiliśmy również zbadać zawartość oraz długość haseł w wspomnianych zbiorach. 25 najdłuższych haseł prezentuje się następująco:

Autor. Opracowanie własne
Czytaj też
Maile w domenie gov.pl i edu.pl
W plikach znajdowały się łącznie 42 maile w domenie „gov.pl”. Oczywiście to na 100% nie oznacza, że ktoś posługiwał się określonymi danymi logowania – rekordy nie zawsze zawierają faktyczne hasła.
Maili w domenie „edu.pl” było aż 3406. Rodzi to możliwość wycieków danych podobnych do tego, który miał miejsce poprzez stosowanie tego samego hasła w celach prywatnych oraz do SIOEZ CKE.

Autor. Opracowanie własne
Podsumowanie
Dbajmy o nasze hasła, lecz nie zapominajmy o dwuetapowym uwierzytelnianiu, które chroni nasze konta w przypadku wycieku danych logowania. Warto również zastrzec swój numer PESEL.
Hasło z dużą ilością znaków specjalnych nie musi być lepsze od dłuższego bez takich znaków. Wytyczne w tym temacie szczegółowo opisał CERT Polska.
Czytaj też
Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].
WYCIEKI DANYCH z firm. JAK ZAPOBIEGAĆ wynoszeniu danych przez pracowników?
Materiał sponsorowany