Veri madenciliğinde en iyi 10 algoritma

Veri madenciliği, büyük miktarlarda karmaşık gözlemlerle önemli sonuçlara ulaşır.

Karar ağaçları

Karar ağacı algoritmaları, ilk kararın ardından etki alanlarını oluşturan rakip seçimlerde verileri organize etmekten oluşur. Ağacın gövdesi ilk kararı temsil eder ve evet ya da hayır sorusuyla başlar, nasıl kahvaltı yapılacağı ya da alınmayacağı. Kahvaltı yapmak ve kahvaltı yapmamak, ağacın iki farklı dalı olacaktır ve sonraki her seçim, bir bitiş noktasına yol açan kendi farklı dallarına sahip olacaktır.

K-anlamına gelir algoritması

K-aracı algoritması, grupların analizine dayanmaktadır. Toplanan verileri ortak özelliklere göre gruplandırılmış ayrı "kümeler" olarak bölmeyi deneyin.

Destek vektör makineleri

Destek vektörü makinelerinin algoritmaları girdi verilerini alır ve olası iki kategoriden hangisinin girdi verilerini içerdiğini tahmin eder. Bir örnek, bir grup seçmenden posta kodları toplamak ve bir seçmenin Demokrat mı yoksa Cumhuriyetçi mi olduğunu tahmin etmeye çalışmak olacaktır.

Önceden bir algoritma

Önceden bir algoritma genellikle işlem verilerini kontrol eder. Örneğin, bir giyim mağazasında, algoritma müşterilerin genellikle birlikte satın aldığı gömlekleri kontrol edebilir.

EM algoritması

Bu algoritma, verileri analiz ederek parametreleri tanımlar ve veri parametreleri içinde gelecekteki bir çıktının veya rastgele olay olasılığını tahmin eder. Örneğin, EM algoritması, geçmiş erüpsiyonların zaman verilerine dayanarak bir şofbenin bir sonraki erüpsiyonunun zamanlamasını tahmin etmeye çalışabilir.

PageRank Algoritması

PageRank algoritması, arama motorları için temel bir algoritmadır. Belirli bir internet sayfasının daha büyük bir setindeki tek bir web sitesi gibi büyük bir kümedeki belirli bir veri parçasının alaka düzeyini değerlendirin ve tahmin edin.

AdaBoost Algoritması

AdaBoost algoritması, gözlemlenen verilere göre davranışı tahmin eden diğer öğrenme algoritmalarında çalışarak istatistik uç noktalara karşı duyarlıdır. EM algoritması, normalde günde bir kez kızarıklık olduğunda bir dakikadan daha kısa bir sürede iki erüpsiyona sahip bir şofben nedeniyle yanlı olmasına rağmen, AdaBoost algoritması, uç noktasının uygunluğunu analiz ederek EM algoritmasının çıktısını değiştirecektir.

En yakın k komşusunun algoritması

Bu algoritma, verilerin bulunduğu yerdeki kalıpları tanır ve bunları daha büyük bir tanımlayıcı ile ilişkilendirir. Örneğin, evinizin her bir coğrafi konumuna bir postane atamak ve evinizin her coğrafi konumu için bir veri kümesine sahip olmak istiyorsanız, en yakın k yakının algoritması yakınlıklarına göre evleri en yakın postaneye atayacaktır.

Naive Baye

Naive Baye algoritması, bilinen gözlemlerden elde edilen verilere dayanarak bir kimliğin çıktısını tahmin eder. Örneğin, bir kişinin 6 fit 6 inç (1, 97 m) yüksekliğinde ve 14 ayakkabısı giymesi durumunda, Naive Baye algoritması kişinin bir erkek olduğu belli bir olasılıkla öngörülebilir.

CART Algoritması

"CART", regresyon ağacı analizi ve sınıflandırması anlamına gelen İngilizce'deki bir kısaltmadır. Karar ağaçlarının analizi gibi, bir kişi bir depremden kurtulmuş gibi, yarışan seçeneklere göre verileri düzenler. Sadece bir çıkışı veya regresyona dayalı sayısal bir çıkışı sınıflandırabilen karar ağaçlarının algoritmalarının aksine, CART algoritması hem bir olayın olasılığını tahmin etmek için kullanabilir.