Title: Exploring the Role of Gender in 19th Century Fiction Through the Lens of Word Embeddings
Notes:
- Makale 19. yüzyıl İngiliz ve İrlanda edebiyatındaki toplumsal cinsiyet rollerini word embeddings modeliyle inceliyor:
- Kadın ve erkek yazarların eserlerindeki dilsel farklar karşılaştırılıyor.
- Neye dikkat edilmiş?
- Kadın ve erkek yazarların toplumsal cinsiyetle ilişkili kelimeleri (zamirler, sıfatlar, meslekler) nasıl kulandığını karşılaştırmak.
- Yöntemsel olarak distant reading / in contrast to close reading
- Word Embeddings ve Gender:
- Makale, word embeddings modellerinin, kelimeler arasındaki bağlam ilişkilerini sayısal olarak temsil etme yeteneğinden faydalanıyor.
- Veri Hazırlığı
- Romanlar, Project Gutenberg gibi açık kaynaklardan alınıp manuel olarak işlenmiş.
- Karakter isimleri, zamirler ve toplumsal cinsiyetle ilişkili kelimeler manuel olarak etiketlenmiş.
- Word Embeddings Modeli:
- Skip-Gram: Bu model, bir kelimenin bağlamındaki kelimeleri tahmin etmek için çalışır ve kelimelerin anlamını matematiksel bir vektörle ifade eder.
- Kullanılan parametreler:
- 300 boyutlu bir vektör uzayı,
- 5 kelimelik bir bağlam penceresi
- Minimum kelime sıklığı: 50
- Bu model, zamirler gibi toplumsal cinsiyetle ilişkili kelimelerin bağlamlarını yakalamak için kullanılmış. Örneğin, “she” kelimesinin etrafında hangi kelimeler sıklıkla yer alıyor?
- Kelime Vektörlerinin Görselleştirilmesi:
- 300 boyutlu kelime vektörlerini görselleştirmek için t-Distributed Stochastic Neighbor Embedding (t-SNE) kullanılmış.
- Bu yöntem, yüksek boyutlu verileri 2D veya 3D bir uzaya indirerek insan gözüyle daha kolay anlaşılabilir hale getiriyor.
- 300 boyutlu kelime vektörlerini görselleştirmek için t-Distributed Stochastic Neighbor Embedding (t-SNE) kullanılmış.
- Bağlam Benzerliği (Cosine Similarity)
- Kadın ve erkek yazarların aynı kelimeleri nasıl farklı bağlamlarda kullandığını analiz etmek için cosine similarity yönetmini kullanmış.
- Bu, iki kelimenin vektörlerinin birbirine ne kadar benzediğini ölçen bir yöntem. 1’e yakın değerler benzer bağlamları gösterirken, 0’a yakın değerler farklı bağlamları gösteriyor.
- Örnek: “husband” kelimesi, erkek ve kadın yazarlar tarafından hangi bağlamlarda kullanılıyor?
- Kadın ve erkek yazarların aynı kelimeleri nasıl farklı bağlamlarda kullandığını analiz etmek için cosine similarity yönetmini kullanmış.
- Sonuçlar:
- Zamir analizi:
- Erkek yazarların metinlerinde “he” zamiri, kadın yazarların metinlerine kıyasla çok daha fazla yer alıyor
- Kadın yazarlar ise “she” zamirini daha sık kullanmış
- Bu durum, erkek yazarların metinlerinde erkek karakterlere, kadın yazarların ise kadınlara yer verdiğini gösteriyor
- Cinsiyetle İlişkili Kelimelerin Bağlamları:
- Kadın yazarların metinlerinde, kadın karakterlerle ilişkili kelimeler (wife, daughter) genellikle aile bağlarına vurgu yaparken, erkek yazarların metinlerinde erkek karakterlerle ilişkili kelimeler (husband, son) daha bireysel bağlamlarda kullanılmış.
- Örneğin, husband kelimesi, erkek yazarlar için bir statü göstergesi (sosyal bir pozisyon), kadın yazarlar içinse kişisel bir ilişki bağlamında ele alınmış.
- Bağlamsal Analiz Sonuçları (Cosine Similarity)
- Bazı kelimelerin benzer bağlamlarda kullanıldığı, bazılarının ise farklı anlam çağrışımları olduğu gözlenmiş
- Örneğin fellow kelimesi her iki grup için de benzer bağlamlara sahip, ama husband kelimesi oldukça farklı bağlamlarda yer alıyor
- Bazı kelimelerin benzer bağlamlarda kullanıldığı, bazılarının ise farklı anlam çağrışımları olduğu gözlenmiş
- Zamir analizi: