TÜBİTAK-SOBAG – 112K479 Bir Özel Alan Derlemi Olarak ”Türk Çocuk Yazını Derlemi” ve Türk Çocuk Yazını Üzerine İleri Uygulamalar Projesi”

Yazar Bülent Özkan Yayınlandı 9 Haziran 2014 0 yorum

TÜBİTAK-SOBAG – 112K479 Bir Özel Alan Derlemi Olarak “Türk Çocuk Yazını Derlemi” ve Türk Çocuk Yazını Üzerine İleri Uygulamalar Projesi” Mersin. [Yürütücü].

Proje Özeti

Derlem (corpus), dilbilimde bir dili belirgin dilbilimsel ölçütlere göre örneklemek amaçlı olarak o dile ait yazılı ve sözlü metinlerden seçilerek belirli standartlara göre düzenlemiş metin parçalarının bütünü (McEnery vd., 2006) olarak tanımlanabilir. Bir derlem için gerekli ölçütlerin başında ise oluşturulduğu dili örnekleyebilmesi (sampling) ve o dili temsil gücü (representativeness) gelir. Bunun yanı sıra belirli bir sınıra (finite size) sahip olması ya da olmaması (dynamic size), bilgisayarlarca okunabilir (machine-readable) bir yapıda hedef dili betimlemede ölçünlü bir başvuru kaynağı (standart reference) niteliği taşıması bir derlemin oluşturulmasında önemli ölçütlerdendir (McEnery ve Wilson, 2004).

Literatürde var olan biçimiyle derlemler içlemleriyle ve amaçlılıklarıyla koşut olarak çeşitlilik gösterir. Oluşturulan derlemler araştırma sorusuna bağlı olarak geliştirilmektedir. Örneğin: yazılı ve/ya sözlü içeriğe sahip ve belirli bir dilde dilsel çeşitliliği yansıtabilen BNC [British National Corpus) benzeri genel derlemler (general corpora); Guangzhou Petroleum English Corpus gibi petrokimya derlemi ya da The HKUST Computer Science gibi bilgisayar bilimleri derlemi benzeri özel alan derlemleri (specialized corpora); … International Corpus of English (ICE) benzeri eş süremli olarak dilsel veriler içeren eş süremli derlemler (synchronic corpora) …vb. (McEnery vd. 2006).

Bugün dilin doğal ortamlarından yazılı ve sözlü olarak derlenen verilerle kendine özgü kuram ve uygulamalarla ortaya koyulan sağlam kuruluşlu derlemler, özellikle dil öğrenimi ve öğretimi alanında sezgisel örnekçelerden ve ikincil verilerden yalıtılmış ‘gerçek zamanlı’ dilsel verileri içermesi bakımından dil çalışmalarına büyük katkılar sağlamaktadır.

Bu projenin amacı, bir özel alan derlemi [‘Türk Çocuk Yazını Derlemi (TÇYD)] oluşturmak ve oluşturulan bu derlem üzerinden ‘Türk Çocuk Yazını’nda dil öğretimi açısından öncelikli söz varlığını, çocuk yazını eserlerinin okunabilirlik ve yaşa uygunluk düzeylerini; çocuk yazını türlerinin sözcüksel çeşitlilik ve sözcüksel alan örüntülerini; biçimbirimsel, sözcükbirimsel ve sözdizimsel niteliklerini ve ayrıca çocuk yazını eserlerinin iç ve dış yapısal ögelerini bütüncül olarak ortaya koymaktır.

Bu çerçevede proje ile Türk Çocuk Yazını üzerine yürütülecek ileri düzey uygulamalar doğrultusunda alt araştırma soruları “1. Türk Çocuk Yazını’nda dil öğretimi açısından öncelikli söz varlığı nasıldır? 2. Türk Çocuk Yazını’nda eserlerin okunabilirlik düzeyleri nasıldır? 3. Türk Çocuk Yazını’nda eserlerin yaşa uygunluk düzeyleri nasıldır? 4. Türk Çocuk Yazını’nda sözcüksel çeşitlilik ve sözcüksel alan örüntüleri nasıldır? 5. Türk Çocuk Yazını’nda biçimbirimsel, sözcükbirimsel, sözdizimsel yapılar nasıldır? 6. Türk Çocuk Yazını iç ve dış yapısal ögeler açısından nasıldır?” olarak belirlenmiştir.

Alt araştırma sorularına bağlı olarak proje çıktılarının literatürde ‘Türk Çocuk Yazını’ üzerine yürütülmüş ayrıntılı bir çalışma olması nedeniyle önemli bir boşluğu doldurması öngürülmektedir. Öte yandan çevrimiçi (web) üzerinden araştırmacıların erişimine açılacak olan Türk Çocuk Yazını Derlemi’nin başta Türkçenin eğitimi-öğretimi olmak üzere çocuk yazını yazar ve yayıncıları, eğitimci ve araştırmacılar için önemli bir boşluğu dolduracağı, konuyla ilgili araştırmalara ulasal ve uluslararası yayın yapmak adına büyük katkılar sağlayacağı öngörülmektedir. Tüm bu nitelikler bakımında önerilen proje literatürde yöntem ve uygulama açısından bir ilk olma özelliği taşamaktadır.

36 ay süreyle yürütülecek olan proje üç aşamadan oluşmaktadır:

İlk aşamada Türkçe çocuk yazınına ait çeşitli türlerde metin parçaları [5846 numaralı Fikir ve Sanat Eserleri Kanunu’nun Madde 35 (1-4 Fıkralar), Madde 36, Madde 37.’de belirtilen hükümler çerçevesinde] (http://www.mevzuat.adalet.gov.tr/html/957.html) amacımıza uygun olarak proje için geliştirilecek yazılımlar aracılığıyla sayısallaştırılacak, bir veri tabanı uygulamasıyla biçimbirimsel, sözcükbirimsel, sözdizimsel olarak etiketlenebilir-işaretlenebilir hâle getirilecektir (1-3. Aylar).

İkinci aşamada, TÇYD’de çocuk yazınının okunabilirlik, yaşa uygunluk, sözcüksel çeşitlilik ve sözcüksel alan örüntüleri; biçimbirimsel, sözcükbirimsel ve sözdizimsel nitelikler ile iç ve dış yapısal özellikler açısından bilişim teknolojilerinden yararlanılarak araştırma konusu yapılacak ve derlem bu açılardan işlenecektir (3.-36. Aylar).

Üçüncü aşama ise elde edilen sonuçlar “Türk Çocuk Yazını Derlemi TÇYD” olarak sanal ortamda yayımlanacaktır (Eş zamanlı olarak).

Proje ekibi proje konusuyla ilgili olarak yeterli deniyime sahip araştırmacı ve personelden oluşmaktadır. Derlem oluşturma ile ilgili olarak yürütülen 109K104 (http://derlem.mersin.edu.tr), 109K516 (http://fiiller.mersin.edu.tr), 111K332 (http://esdizim.mersin.edu.tr) nolu üç araştırma projesi Tübitak tarafından desteklenip tamamlanan projeler arasındadır.

Project Summary

Corpus can be defined as the entire collection of selected written and spoken texts, which is used for the sampling of a language, according to linguistic bench marks in the domain of linguistics (McEnery et al., 2006). The most crucially required benchmarks of the corpus are its sampling and representation of language. Besides this, the other crucial benchmarks to describe the language are its having a finite or dynamic size; its being machine readable, and its being standard reference. (McEnery and Wilson, 2004).

In their forms of literature, the corpuses are different with their contents and goals. Therefore, the created corpuses are developed in line with the research questions. McEnery et al. (2006) gives a detailed description of corpus types, and states that BNC (British National Corpus), as a general corpus, has written and spoken contents, and it reflects the variety of language. There are also specialized corpuses like petro chemistry corpus of “Guangzhou Petroleum English Corpus” or computer sciences’ corpus of “The HKUST Computer Science”. Furthermore, there are synchronic corpuses which include lingual data.

Today, strongly established corpuses, which have been compiled as written and spoken and which have their own theories and applications, contribute a lot to the language studies. This happens particularly as they include real time language elements refined from secondary sources and intuitional samples in the domain of language learning and teaching.

The aim of the present project is to create a Turkish Child Literature Corpus (TCLC). Via this corpus, the aims are to determine the primary expression existence; to analyze the levels of age and readability of child literature works; to identify the lexical areas of child literature sample, and to classify the properties of morphemic, lexeme and syntactic categories.

In this perspective, the research questions of the project’s further applications on Turkish Child Literature are identified as “1. How is the primary lexeme in terms of language teaching in Turkish Child Literature? 2. How are the readability of Turkish Child Literature works? 3. How are the age suitability levels of Turkish Child Literature works? 4. How are the lexical variance and lexical domain patterns in Turkish Child Literature? 5. How are the morphemic, lexeme and syntactic structures in Turkish Child Literature? 6. How is Turkish Child Literature in terms of internal and external elements?”

In relation with the subquestions of the research, the project is expected to fill the vacancy as there is not a detailed study on Turkish Child Literature. On the other hand, Turkish Child Literature Corpus is going to be available online so that authors and publishers, particularly in Turkish language education and instruction, can use. From this aspect, TCLC is expected to contribute a lot to both national and international research on related topics.

The project, which is going to last for 36 months, consists of 3 stages:

At the first stage of the project, the various types of texts belonging to Turkish Child Literature [5846 numbered Law on Intellectual and Artistic Works Item 35 (1-4 paragraphs), in the perspective of judgments: Item 36. and Item 37.] (http://www.mevzuat.adalet.gov.tr/html/957.html) are going to be digitized. With a database application, morphemic, lexeme and syntactic parts are going to be made ready for tagging and marking. (Between 1^st and 3^rd months)

At the second stage, the reability, the suitability to age, lexical domain samples, the morphemic, lexeme, and syntactic properties are going to be handled as research topics via using information technologies, and the corpus is going to be processed (between 3^rd and 36^th months).

At the third stage, the obtained results are going to be published online as “Turkish Child Literature Corpus-TCLC” (synchronously). The project team is composed of researchers and personnel who have sufficient experience about the topic. On the area of creating corpus, three projects “109K104 (http://derlem.mersin.edu.tr), 109K516 (http://fiiller.mersin.edu.tr), 111K332 (http://esdizim.mersin.edu.tr)” have already been supported by TÜBİTAK, and these projects have been completed.

Etiketler Children's Literature, Çocuk Yazını, Corpus Linguistics, Derlem Dilbilim, Türkçe, Turkey Turkish, Turkish, Türkiye Türkçesi Kategori Tübitak Projeleri Görüntülenme 2614