TÜRKÇE AKADEMİK MAKALELERDE ATIF NİYETLERİNİN MAKİNE ÖĞRENMESİ İLE BELİRLENMESİ

KARACA, Kemal Sami; Eravcı, Bahaeddin

doi:10.48623/aperta.286648

Yayınlanmış 2 Ocak 2026 | Sürüm 1.0.0

Veri Seti Açık

TÜRKÇE AKADEMİK MAKALELERDE ATIF NİYETLERİNİN MAKİNE ÖĞRENMESİ İLE BELİRLENMESİ

1. TÜBİTAK
2. TOBB ETU

Katkıda Bulunan Kişiler

Denetleyici:

Eravcı, Bahaeddin¹

1. TOBB ETU

Akademik araştırmalarda atıflar, bir çalışmanın etkisini ölçmek için kullanılan temel metriklerden biridir. Ancak, atıf sayıları gibi nicel ölçütler, bir atfın hangi amaçla (örn. bir yöntemi kullanmak, bir bulguyu desteklemek, arkaplan bilgisi vermek) yapıldığını, yani atfın "niyetini" açıklamakta yetersiz kalmaktadır . İngilizce literatürde atıf niyeti sınıflandırması (CIC) üzerine birçok çalışma bulunsa da , Türkçe için bu alanda belirgin bir araştırma boşluğu mevcuttur.

Bu tez çalışması, bu boşluğu doldurarak Türkçe akademik makalelerdeki atıf niyetlerinin modern makine öğrenmesi yöntemleriyle otomatik olarak sınıflandırılması problemini ele almaktadır. Çalışmanın ilk temel katkısı, Bilgisayar Bilimleri alanındaki Türkçe makalelerden derlenen, kamuya açık ilk büyük ölçekli Türkçe atıf niyeti veri setinin oluşturulmasıdır. Bu veri seti üzerinde iki ana metodolojik yaklaşım sistematik olarak incelenmiştir.

İlk yaklaşımda, GPT-4o ve Gemini gibi Büyük Dil Modellerinin (LLM) In-Context Learning (ICL) ile performansı değerlendirilmiştir. Manuel istem mühendisliğinin tutarsız sonuçlar ürettiği tespit edilmiş; bu sorunu aşmak için DSPy çerçevesi kullanılarak istem oluşturma süreci otomatikleştirilmiş ve tekil model doğruluğu %86.5 seviyesine çıkarılmıştır. En yüksek ve kararlı performansı elde etmek için, farklı LLM konfigürasyonlarının çıktıları yığınlama (stacking) tabanlı bir topluluk modeli ile birleştirilmiştir. Lojistik Regresyon meta-modeli kullanılarak bireysel modellerin zayıflıkları dengelenmiş ve %92.5'lik nihai doğruluk oranıyla çalışmanın en yüksek başarısına ulaşılmıştır.

İkinci ana yaklaşım olarak, sınıf dengesizliği ve bağlamsal belirsizlik sorunlarını izole etmek amacıyla sistematik bir deney matrisi tasarlanmış; BERTurk, Turkish ELECTRA, DeBERTaV3 ve ModernBERT gibi modern kodlayıcı mimarilerinin etkinliği test edilmiştir. Bu mimariler üzerinde gerçekleştirilen "Düz", "Hiyerarşik" ve "Zengin Bağlamlı" (Context-Aware) eğitim senaryoları, literatürdeki beklentilerin aksine çarpıcı bulgular ortaya koymuştur. Deneyler, "Düz" (Flat) sınıflandırmanın en kararlı ve yüksek temel başarımı sunduğunu; buna karşılık işlemsel yük getiren "Hiyerarşik" yapının performans katkısının marjinal kaldığını göstermiştir. Çalışmanın en kritik bulgusu ise, bölüm başlığı ve çevre cümlelerle zenginleştirilen bağlamın, modelin atıf niyetini öğrenmek yerine yapısal meta-verilere dayalı "yanıltıcı korelasyonlar" (spurious correlations) geliştirmesine neden olmasıdır. Bu durum, özellikle azınlık sınıflarındaki (Basis, Differ) ayırt ediciliğin düşmesine ve modelin genelleme yeteneğinin zayıflamasına yol açmıştır. Sonuçlar, Türkçe atıf analizi görevlerinde bağlamın "körlemesine" artırılması yerine, anlamsal yoğunluğu yüksek odaklı bir temsilin ve sınıf dengesizliğini gideren stratejilerin daha kritik olduğunu kanıtlamaktadır.

Tüm deneyler boyunca, "Background" sınıfının ezici baskınlığından kaynaklanan sınıf dengesizliğinin, hem optimizasyon süreçlerini hem de azınlık sınıflarının öğrenilmesini zorlaştıran temel sorun olduğu görülmüştür. Bu çalışma, Türkçe atıfların nitel analizi için güçlü ve otomatikleştirilmiş yöntemler sunarak literatürdeki önemli bir boşluğu doldurmaktadır.

Dosyalar

cec_citation_intents.csv

Dosyalar (1.1 GB)

Ad	Boyut	Hepisini indir
cec_citation_intents.csv md5:bbdcecf761c2694045875e6693d415a6	1.0 GB	Ön İzleme İndir
cec_citations.csv md5:87fa3f9bef3b58c84fc8e997e25408ea	74.1 MB	Ön İzleme İndir
data_v100_test.csv md5:34015ba6962f55bafc0043d54a3b6a29	128.4 kB	Ön İzleme İndir
data_v100_test_ext.csv md5:a23b4021e8add824ca2909919b9c6ddf	261.9 kB	Ön İzleme İndir
data_v100_train.csv md5:c396d663f7b2c53d11a2fd62ee565d60	437.0 kB	Ön İzleme İndir
data_v100_train_ext.csv md5:342eb2f72d6372db445d9d508f0e4788	877.6 kB	Ön İzleme İndir
data_v100_val.csv md5:51ec1868250b79cebce5c6747936a181	75.0 kB	Ön İzleme İndir
data_v100_val_ext.csv md5:a97e3243ca4210a8c5ab71be95c0b392	148.9 kB	Ön İzleme İndir

	Tüm sürümler	Bu sürüm
Görüntüleme	149	149
İndirilenler	314	314
Veri miktarı	101.6 GB	101.6 GB

TÜRKÇE AKADEMİK MAKALELERDE ATIF NİYETLERİNİN MAKİNE ÖĞRENMESİ İLE BELİRLENMESİ

Katkıda Bulunan Kişiler

Denetleyici:

Dosyalar

cec_citation_intents.csv

Dosyalar (1.1 GB)

TÜBİTAK ULAKBİM

İLETİŞİM

TÜRKÇE AKADEMİK MAKALELERDE ATIF NİYETLERİNİN MAKİNE ÖĞRENMESİ İLE BELİRLENMESİ

Oluşturanlar

Katkıda Bulunan Kişiler

Denetleyici:

Açıklama

Dosyalar

cec_citation_intents.csv

Dosyalar (1.1 GB)