Veri seti Açık Erişim

Makine Öğrenmesi Modellerini Kullanarak Akademik Veri Tabanlarına İlişkin Tahminler Oluşturma

Eroğlu, Ertuğrul Burak; Binici, Kasım


Dublin Core

<?xml version='1.0' encoding='utf-8'?>
<oai_dc:dc xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
  <dc:creator>Eroğlu, Ertuğrul Burak</dc:creator>
  <dc:creator>Binici, Kasım</dc:creator>
  <dc:date>2024-07-29</dc:date>
  <dc:description>Kütüphane danışma hizmetlerinin makine öğrenmesi teknikleriyle otonom biçimde yürütülmesinde kullanışlı makine öğrenmesi algoritmalarının belirlenmek istendiği araştırmada, akademik veri tabanlarıyla eğitilen bir makine öğrenmesi modelinin, herhangi bir konudaki bilgi kaynağı gereksinimini betimleyen doğal dil sorularına verdiği yanıtların başarım düzeyleri çeşitli makine öğrenmesi algoritmaları çerçevesinde incelenmek istenmiştir. Modelin eğitimi için eğitim veri seti, sınanması için ise bağımsız bir test veri seti oluşturulmuştur.

Eğitim veri seti: T.C. Millet Kütüphanesi'nde listelenen 133 adet veri tabanı, tür, dil, format, temel alan, bilim alanı, konular, içerik ve erişim türü bakımından kayıt altına alınarak tanımlanmıştır. T.C. Millet Kütüphanesi'nin veri tabanı listesinin bu çalışmada tercih edilmesinin en önemli sebepleri ülkemizdeki en fazla veri tabanına sahip olması ve araştırma kapsamında veri tabanlarında kısıtsız gezinme imkânı sunmasıdır. Veri tabanlarının öz niteliklerinin belirlenmesinde en önemli unsur, içerdikleri konuların ve anahtar kelimelerin kapsamlı ve standart bir şekilde saptanmasıdır. Bu amaçla, incelenen veri tabanlarının kapsadığı konular "ÜAK 2022 Mart Dönemi Doçentlik Başvurularına Ait Bilim Alanları ve Anahtar Kelimeler" rehberine dayandırılmıştır.

Test veri seti: Makine öğrenmesi modelinin sınanabilmesi için ihtiyaç duyulan test veri setinin oluşturulması aşamasında, ilk olarak bu çalışmanın yürütücüsü tarafından doğal dilin esas alındığı, çeşitli ve rastgele kombinasyonlardan oluşan 50 farklı soru kalıbı ortaya çıkarılmıştır. Soru kalıplarının ortaya çıkmasının ardından, "ÜAK 2022 Mart Dönemi Doçentlik Başvurularına ait Bilim Alanları ve Anahtar Kelimeler" isimli rehberdeki anahtar kelimeler, bilim alanlarına göre hiyerarşik sırayla MS Excel'e aktarılmış ve bir konu dizini elde edilmiştir. MS Excel üzerinde oluşturulan konu dizini, önceden hazırlanmış olan soru kalıplarına uygulanarak, tüm konularla ilgili farklı kombinasyonlarda, doğal dil ile oluşturulmuş 7300 sorudan oluşan bir test seti ortaya çıkarılmıştır. Bu sorular, bir araştırmacının herhangi bir konudaki bilgi kaynağı gereksinimini Türkçe doğal dille ifade etmesi üzerine kurgulanmıştır.</dc:description>
  <dc:identifier>https://aperta.ulakbim.gov.trrecord/273772</dc:identifier>
  <dc:identifier>10.48623/aperta.273772</dc:identifier>
  <dc:identifier>oai:aperta.ulakbim.gov.tr:273772</dc:identifier>
  <dc:rights>info:eu-repo/semantics/openAccess</dc:rights>
  <dc:rights>https://creativecommons.org/licenses/by-nc/4.0/</dc:rights>
  <dc:subject>Akademik veri tabanı</dc:subject>
  <dc:subject>Veri seti</dc:subject>
  <dc:subject>Makine öğrenmesi</dc:subject>
  <dc:subject>Veri madenciliği</dc:subject>
  <dc:subject>Doğal dil işleme</dc:subject>
  <dc:title>Makine Öğrenmesi Modellerini Kullanarak Akademik Veri Tabanlarına İlişkin Tahminler Oluşturma</dc:title>
  <dc:type>info:eu-repo/semantics/other</dc:type>
  <dc:type>dataset</dc:type>
</oai_dc:dc>
91
51
görüntülenme
indirilme
Tüm sürümler Bu sürüm
Görüntülenme 9191
İndirme 5151
Veri hacmi 19.6 MB19.6 MB
Tekil görüntülenme 7676
Tekil indirme 3737

Alıntı yap