Yayınlanmış 2 Ocak 2026 | Sürüm 1.0.0
Veri Seti Açık

TÜRKÇE AKADEMİK MAKALELERDE ATIF NİYETLERİNİN MAKİNE ÖĞRENMESİ İLE BELİRLENMESİ

  • 1. TÜBİTAK
  • 2. TOBB ETU

Katkıda Bulunan Kişiler

Denetleyici:

  • 1. TOBB ETU

Açıklama

Akademik araştırmalarda atıflar, bir çalışmanın etkisini ölçmek için kullanılan temel metriklerden biridir. Ancak, atıf sayıları gibi nicel ölçütler, bir atfın hangi amaçla (örn. bir yöntemi kullanmak, bir bulguyu desteklemek, arkaplan bilgisi vermek) yapıldığını, yani atfın "niyetini" açıklamakta yetersiz kalmaktadır . İngilizce literatürde atıf niyeti sınıflandırması (CIC) üzerine birçok çalışma bulunsa da , Türkçe için bu alanda belirgin bir araştırma boşluğu mevcuttur.

Bu tez çalışması, bu boşluğu doldurarak Türkçe akademik makalelerdeki atıf niyetlerinin modern makine öğrenmesi yöntemleriyle otomatik olarak sınıflandırılması problemini ele almaktadır. Çalışmanın ilk temel katkısı, Bilgisayar Bilimleri alanındaki Türkçe makalelerden derlenen, kamuya açık ilk büyük ölçekli Türkçe atıf niyeti veri setinin oluşturulmasıdır. Bu veri seti üzerinde iki ana metodolojik yaklaşım sistematik olarak incelenmiştir.

İlk yaklaşımda, GPT-4o ve Gemini gibi Büyük Dil Modellerinin (LLM) In-Context Learning (ICL) ile performansı değerlendirilmiştir. Manuel istem mühendisliğinin tutarsız sonuçlar ürettiği tespit edilmiş; bu sorunu aşmak için DSPy çerçevesi kullanılarak istem oluşturma süreci otomatikleştirilmiş ve tekil model doğruluğu %86.5 seviyesine çıkarılmıştır. En yüksek ve kararlı performansı elde etmek için, farklı LLM konfigürasyonlarının çıktıları yığınlama (stacking) tabanlı bir topluluk modeli ile birleştirilmiştir. Lojistik Regresyon meta-modeli kullanılarak bireysel modellerin zayıflıkları dengelenmiş ve %92.5'lik nihai doğruluk oranıyla çalışmanın en yüksek başarısına ulaşılmıştır.

İkinci ana yaklaşım olarak, sınıf dengesizliği ve bağlamsal belirsizlik sorunlarını izole etmek amacıyla sistematik bir deney matrisi tasarlanmış; BERTurk, Turkish ELECTRA, DeBERTaV3 ve ModernBERT gibi modern kodlayıcı mimarilerinin etkinliği test edilmiştir. Bu mimariler üzerinde gerçekleştirilen "Düz", "Hiyerarşik" ve "Zengin Bağlamlı" (Context-Aware) eğitim senaryoları, literatürdeki beklentilerin aksine çarpıcı bulgular ortaya koymuştur. Deneyler, "Düz" (Flat) sınıflandırmanın en kararlı ve yüksek temel başarımı sunduğunu; buna karşılık işlemsel yük getiren "Hiyerarşik" yapının performans katkısının marjinal kaldığını göstermiştir. Çalışmanın en kritik bulgusu ise, bölüm başlığı ve çevre cümlelerle zenginleştirilen bağlamın, modelin atıf niyetini öğrenmek yerine yapısal meta-verilere dayalı "yanıltıcı korelasyonlar" (spurious correlations) geliştirmesine neden olmasıdır. Bu durum, özellikle azınlık sınıflarındaki (Basis, Differ) ayırt ediciliğin düşmesine ve modelin genelleme yeteneğinin zayıflamasına yol açmıştır. Sonuçlar, Türkçe atıf analizi görevlerinde bağlamın "körlemesine" artırılması yerine, anlamsal yoğunluğu yüksek odaklı bir temsilin ve sınıf dengesizliğini gideren stratejilerin daha kritik olduğunu kanıtlamaktadır.

Tüm deneyler boyunca, "Background" sınıfının ezici baskınlığından kaynaklanan sınıf dengesizliğinin, hem optimizasyon süreçlerini hem de azınlık sınıflarının öğrenilmesini zorlaştıran temel sorun olduğu görülmüştür. Bu çalışma, Türkçe atıfların nitel analizi için güçlü ve otomatikleştirilmiş yöntemler sunarak literatürdeki önemli bir boşluğu doldurmaktadır.

Dosyalar

cec_citation_intents.csv

Dosyalar (1.1 GB)

Ad Boyut Hepisini indir
md5:bbdcecf761c2694045875e6693d415a6
1.0 GB Ön İzleme İndir
md5:87fa3f9bef3b58c84fc8e997e25408ea
74.1 MB Ön İzleme İndir
md5:34015ba6962f55bafc0043d54a3b6a29
128.4 kB Ön İzleme İndir
md5:a23b4021e8add824ca2909919b9c6ddf
261.9 kB Ön İzleme İndir
md5:c396d663f7b2c53d11a2fd62ee565d60
437.0 kB Ön İzleme İndir
md5:342eb2f72d6372db445d9d508f0e4788
877.6 kB Ön İzleme İndir
md5:51ec1868250b79cebce5c6747936a181
75.0 kB Ön İzleme İndir
md5:a97e3243ca4210a8c5ab71be95c0b392
148.9 kB Ön İzleme İndir