À de nombreuses reprises, les logiciels malveillants évitent la détection par les moteurs d'analyse et s'en sortent indemnes en subissant un changement de structure et de comportement. Toutefois, cet attribut (lorsqu'il est présent dans de grands volumes) peut être utilisé pour déterminer le lien de filiation entre différents types de programmes malveillants et détecter de nouvelles souches. Une étude récente publiée par le chercheur en sécurité Silvio Cesare souligne que les souches de malware peuvent être identifiées par leur patrimoine. Le chercheur a développé un modèle appelé Simser capable d'identifier un logiciel plagié et d'établir une relation entre les logiciels malveillants.
Comment fonctionne Simseer
Vous devez soumettre une archive Zip contenant le logiciel malveillant à Simseer. La taille de fichier maximale par fichier est 100 000 octets. Le nom de fichier exemple doit être: alphanumérique ou points et uniquement les exécutables PE-32 et ELF-32. Un maximum de 20 soumissions sont autorisées par jour.
Les serveurs Simseer regroupent les échantillons en clusters, puis analysent un échantillon inconnu afin de rechercher des similitudes avec des familles de programmes malveillants connus et d'identifier de nouveaux. Il affiche ensuite un arbre d'évolution à gauche, montrant les relations entre le code existant et le nouveau. Plus les programmes sont proches dans l’arbre, plus ils sont liés et appartiennent probablement à la même famille. Les nouvelles souches, si elles sont trouvées, sont cataloguées séparément lorsqu'elles ressemblent à moins de 98% aux souches existantes.
Pour gérer la base de données de Simseer, Cesare télécharge le code brut des programmes malveillants depuis le réseau de partage de logiciels malveillants VirusShare et d’autres sources, avec des données allant de 600 Mo à 16 Go dans ses algorithmes tous les soirs.
Via AusCERT 2013.