Metin Madenciliğinde TF-IDF Kullanımı

Elinizde bir miktar bölümlenmiş, haber metni, blog yazısı, yemek tarifi gibi metin verisi var ise bu bölümler içinde geçen kelimelerin ya da terimlerin sıklık düzenini bir algoritma ile çıkararak bu metinler üzerine bir gruplama yapabiliriz.

Kısaltmaların açıklamaları şöyle
TF: Term Frequency / Terim Sıklığı
IDF: Inverse Document Frequency / Ters Döküman Sıklığı

Burada TF-IDF‘in bir duygu analizi(sentiment analysis) olmadığını belirtmek gerekir. TF-IDF metinleri kendi içlerinde hesaplamalar yaparak kategorilendirir, etiketleme yapabilir fakat duygu analizi bir metin grubunu diğerlerinden bağımsız olarak etiketleyebilir. Örneğin; TF-IDF, bir yemek tarifleri kitabında her tarif içinde tuz geçeceği için bunu fark ederek tuz kelimesi için düşük bir önem değeri atayacaktır fakat duygu analizi her tarifi birbirinden bağımsız işleyerek anlatıma göre etiketleme yapacaktır.

Nasıl Hesaplanır

Terim sıklığı; seçili terimimizin, metin içinde bulunan toplam terimler sayısına bölümüdür.

Ters Döküman Sıklığı; metinlerimizin kaçında terimimiz var bunu gösterir. Toplam metin adetimizin terimi içeren metin adetine bölümünün logaritmasıdır.

TF-IDF Değeri; bu iki değerin çarpımı ile elde edilir.

Bir örnek ile hesaplamayı yapıp bitirelim bu konuyu.

Metinlerimiz şöyle olsun

1 - Muz sarı ya da yeşil renklidir genellikle sarı olur.
2 - Elma kırmızı ve yuvarlaktır, sarı renkte olanlar olabilir.
3 - Karpuzun içi kırmızı renklidir.

Birinci metin içinde sarı terimi için hesaplamamızı yaparsak
TF = 2 / 8 = 0.25
IDF = log(3/2) = 0.18

TF-IDF = 0.044

Burada metin adetimiz 4 olsaydı IDF = 0.3 olacaktı ve TF-IDF = 0.075 olacaktı yani sarı teriminin bütün metinler içinde seyrekliği arttı fakat birinci metin içindeki seyrekliği aynı kaldı dolayısıyla birinci metine olan etkisi artmış oldu.


Yayımlandı

kategorisi

yazarı:

Yorumlar

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir