Microsoft dan Intel Gabungkan Pembelajaran Mendalam dan Piksel untuk Membasmi Malware

Peneliti Microsoft dan Intel telah menemukan cara untuk menggabungkan kecerdasan buatan dan analisis gambar untuk menciptakan cara yang sangat efektif untuk memerangi infeksi perangkat lunak berbahaya.
Para peneliti menyebut pendekatan mereka “STAMINA” — analisis jaringan malware-sebagai-gambar statis — dan mengatakan pendekatan ini terbukti sangat efektif dalam mendeteksi malware dengan tingkat positif palsu yang rendah.
Yang dilakukan STAMINA adalah mengambil berkas biner dan mengubahnya menjadi gambar yang dapat dianalisis oleh perangkat lunak kecerdasan buatan menggunakan “pembelajaran mendalam”.
“STAMINA adalah pendekatan yang menarik untuk mengklasifikasikan malware,” kata Mark Nunnikhoven, wakil presiden penelitian cloud di Trend Micro , penyedia solusi keamanan siber yang berkantor pusat di Tokyo.
“Pendekatan ini seperti membuat grafik dari tabel data yang besar,” katanya kepada TechNewsWorld. “Lebih mudah menemukan pola dalam grafik daripada menyisir data mentah.”
Dengan menggunakan pendekatan pembelajaran mesin analisis gambar umum, tim dapat mengelompokkan sampel malware ke dalam keluarga dan membedakan antara perangkat lunak yang diinginkan dan malware, kata Nunnikhoven.
“Ini bukan satu-satunya metode pembelajaran mesin, tetapi ini merupakan pendekatan baru dan menarik yang penuh dengan potensi,” tambahnya.
Kelemahan terbesar metode ini terkait dengan ukuran malware, Nunnikhoven mencatat. “Karena teknik ini mengubah malware menjadi gambar, metode ini dapat menghabiskan banyak sumber daya dengan cepat. Jika Anda pernah mencoba membuka foto yang sangat besar di komputer lama, Anda pasti pernah mengalami sendiri tantangannya.”
Akurasi 99 Persen
“Seiring dengan terus berkembangnya varian malware, teknik pencocokan tanda tangan tradisional tidak dapat mengimbanginya,” jelas peneliti Intel Li Chen dan Ravi Sahita serta peneliti Microsoft Jugal Parikh dan Marc Marino dalam sebuah white paper.
“Kami berupaya menerapkan teknik pembelajaran mendalam untuk menghindari rekayasa fitur yang mahal dan menggunakan teknik pembelajaran mesin untuk mempelajari dan membangun sistem klasifikasi yang dapat mengidentifikasi biner program malware secara efektif,” tulis mereka.
“Kami mengeksplorasi teknik berbasis gambar baru pada biner program x86,” lanjut mereka, “yang menghasilkan akurasi 99,07% dengan rasio positif palsu 2,58%.”
Pendekatan deteksi malware klasik melibatkan ekstraksi tanda tangan biner atau sidik jari malware. Namun, pertumbuhan tanda tangan yang eksponensial membuat pencocokan tanda tangan menjadi tidak efisien, jelas para peneliti.
Malware juga dapat diidentifikasi dengan menganalisis kode file. Itu biasanya dilakukan dengan analisis statis atau dinamis, atau keduanya. Analisis statis dapat membongkar kode, tetapi kinerjanya dapat terganggu oleh pengaburan kode. Analisis dinamis, meskipun dapat membongkar kode, dapat memakan waktu, kata mereka.
“Meskipun analisis statis biasanya dikaitkan dengan metode deteksi tradisional, analisis ini tetap menjadi bagian penting dalam deteksi malware berbasis AI,” tulis Parikh dan Marino dari Microsoft dalam posting terpisah di STAMINA.
“Ini sangat berguna untuk mesin deteksi pra-eksekusi: analisis statis membongkar kode tanpa harus menjalankan aplikasi atau memantau perilaku runtime,” catat mereka.
“Menemukan cara untuk melakukan analisis statis dalam skala besar dan dengan efektivitas tinggi akan memberikan manfaat bagi metodologi deteksi malware secara keseluruhan,” kata Parikh dan Marino.
“Untuk tujuan ini, penelitian ini meminjam pengetahuan dari domain visi komputer untuk membangun kerangka kerja deteksi malware statis yang ditingkatkan yang memanfaatkan pembelajaran transfer mendalam untuk melatih langsung pada biner eksekusi portabel (PE) yang direpresentasikan sebagai gambar,” mereka menjelaskan.
Skala Lebih Baik, Pemrosesan Lebih Cepat
“Teknik analisis malware tradisional sudah lama tidak efektif lagi,” ungkap Chris Rothe, kepala produk Red Canary , penyedia layanan keamanan berbasis cloud yang berlokasi di Denver.
“Analisis statis dan dinamis efektif tetapi sulit untuk ditingkatkan,” katanya kepada TechNewsWorld. “Salah satu manfaat pendekatan ini adalah memungkinkan pemanfaatan teknologi dari domain lain yang memiliki kemampuan untuk beroperasi dalam skala besar.”
“Hal ini diperlukan karena ledakan sampel biner yang telah dibuat oleh penyerang yang melakukan mutasi malware untuk menghindari deteksi,” lanjut Rothe. “Jadi, jika teknik ini berhasil, analisis biner dapat kembali menjadi metode deteksi ancaman yang layak.”
Pendekatan Microsoft-Intel juga mengurangi ukuran masukan ke dalam sistem analisis, yang dapat menghasilkan pemrosesan yang lebih cepat.
“Jika Anda mengubah file biner menjadi piksel, ada sejumlah pengurangan ukuran input yang menyertainya,” kata Malek Ben Salem, pemimpin R&D keamanan Amerika untuk Accenture, sebuah perusahaan jasa profesional yang berpusat di Dublin.
“Dengan STAMINA, mereka melangkah lebih jauh. Mereka mengubah biner menjadi piksel dan kemudian memperkecil ukuran gambar,” ungkapnya kepada TechNewsWorld.
“Fakta bahwa Anda dapat mengurangi ukuran input tersebut dan memasukkannya ke jaringan pembelajaran mendalam berarti Anda dapat memproses lebih banyak informasi,” kata Ben Salem. “Anda dapat melihat lebih banyak contoh malware, yang akan mempercepat banyak hal.”
Nyaman di Mata Manusia
Meskipun para peneliti melihat metode mereka digunakan dalam lingkungan yang sepenuhnya otomatis, gambar-gambar itu juga akan berharga bagi bidang keamanan manusia.
“Dalam kasus di mana mesin tidak yakin apakah sebuah berkas aman atau tidak dan pemeriksaan manusia diperlukan, manusia akan lebih mudah memahami gambar daripada kode heksadesimal,” catat Ben Salem.
Menambahkan pembelajaran mendalam ke proses deteksi juga memberikan keuntungan dibandingkan teknik yang sudah ada.
“Dengan model pembelajaran mendalam, Anda dapat menangani data yang kompleks,” kata Ben Salem. “Itu berarti variasi kecil pada malware dapat dideteksi dengan lebih mudah daripada pendekatan pembelajaran mesin klasik yang selama ini kami gunakan.”
Para peneliti mengakui keterbatasan metode mereka.
“Studi kami menunjukkan kelebihan dan kekurangan antara metode berbasis sampel dan berbasis meta data,” tulis mereka dalam white paper mereka.
“Keuntungan utamanya adalah kami dapat menyelami sampel secara mendalam dan mengekstrak informasi tekstur, sehingga semua karakteristik file malware tertangkap selama pelatihan,” jelas para peneliti.
“Namun, untuk aplikasi berukuran lebih besar, STAMINA menjadi kurang efektif karena perangkat lunak tidak dapat mengubah miliaran piksel menjadi gambar JPEG dan kemudian mengubah ukurannya,” lanjut mereka. “Dalam kasus seperti ini, metode berbasis meta-data menunjukkan keunggulan dibandingkan model berbasis sampel.”
Di masa mendatang, tim ingin mengevaluasi model hibrida menggunakan representasi antara biner dan informasi yang diekstrak dari biner dengan pendekatan pembelajaran mendalam. Kumpulan data tersebut diharapkan lebih besar tetapi dapat memberikan akurasi yang lebih tinggi.
Para peneliti berencana untuk terus mengeksplorasi optimasi akselerasi platform untuk model pembelajaran mendalam mereka sehingga mereka dapat menerapkan teknik deteksi tersebut dengan daya dan dampak kinerja minimal bagi pengguna akhir.