Veri seti Açık Erişim

Makine Öğrenmesi Modellerini Kullanarak Akademik Veri Tabanlarına İlişkin Tahminler Oluşturma

   Eroğlu, Ertuğrul Burak; Binici, Kasım

Kütüphane danışma hizmetlerinin makine öğrenmesi teknikleriyle otonom biçimde yürütülmesinde kullanışlı makine öğrenmesi algoritmalarının belirlenmek istendiği araştırmada, akademik veri tabanlarıyla eğitilen bir makine öğrenmesi modelinin, herhangi bir konudaki bilgi kaynağı gereksinimini betimleyen doğal dil sorularına verdiği yanıtların başarım düzeyleri çeşitli makine öğrenmesi algoritmaları çerçevesinde incelenmek istenmiştir. Modelin eğitimi için eğitim veri seti, sınanması için ise bağımsız bir test veri seti oluşturulmuştur.

Eğitim veri seti: T.C. Millet Kütüphanesi'nde listelenen 133 adet veri tabanı, tür, dil, format, temel alan, bilim alanı, konular, içerik ve erişim türü bakımından kayıt altına alınarak tanımlanmıştır. T.C. Millet Kütüphanesi'nin veri tabanı listesinin bu çalışmada tercih edilmesinin en önemli sebepleri ülkemizdeki en fazla veri tabanına sahip olması ve araştırma kapsamında veri tabanlarında kısıtsız gezinme imkânı sunmasıdır. Veri tabanlarının öz niteliklerinin belirlenmesinde en önemli unsur, içerdikleri konuların ve anahtar kelimelerin kapsamlı ve standart bir şekilde saptanmasıdır. Bu amaçla, incelenen veri tabanlarının kapsadığı konular "ÜAK 2022 Mart Dönemi Doçentlik Başvurularına Ait Bilim Alanları ve Anahtar Kelimeler" rehberine dayandırılmıştır.

Test veri seti: Makine öğrenmesi modelinin sınanabilmesi için ihtiyaç duyulan test veri setinin oluşturulması aşamasında, ilk olarak bu çalışmanın yürütücüsü tarafından doğal dilin esas alındığı, çeşitli ve rastgele kombinasyonlardan oluşan 50 farklı soru kalıbı ortaya çıkarılmıştır. Soru kalıplarının ortaya çıkmasının ardından, "ÜAK 2022 Mart Dönemi Doçentlik Başvurularına ait Bilim Alanları ve Anahtar Kelimeler" isimli rehberdeki anahtar kelimeler, bilim alanlarına göre hiyerarşik sırayla MS Excel'e aktarılmış ve bir konu dizini elde edilmiştir. MS Excel üzerinde oluşturulan konu dizini, önceden hazırlanmış olan soru kalıplarına uygulanarak, tüm konularla ilgili farklı kombinasyonlarda, doğal dil ile oluşturulmuş 7300 sorudan oluşan bir test seti ortaya çıkarılmıştır. Bu sorular, bir araştırmacının herhangi bir konudaki bilgi kaynağı gereksinimini Türkçe doğal dille ifade etmesi üzerine kurgulanmıştır.

Dosyalar (634.2 kB)
Dosya adı Boyutu
egitimveriseti-veritabanikatalog.xlsx
md5:8b512c6142e9bc9536c44e2ec8af6f38
520.3 kB İndir
testseti-dogaldilsorular.xlsx
md5:6d41d9ad4dc451869e5163e0ecbf7f11
114.0 kB İndir
91
51
görüntülenme
indirilme
Tüm sürümler Bu sürüm
Görüntülenme 9191
İndirme 5151
Veri hacmi 19.6 MB19.6 MB
Tekil görüntülenme 7676
Tekil indirme 3737

Alıntı yap