TÜBİTAK-SOBAG – 114E791 “Türkçe için ‘Kendi Kendine Derlem’ Platformu Oluşturma”

Yazar Bülent Özkan Yayınlandı 9 Eylül 2014 0 yorum

TÜBİTAK-SOBAG – 114E791 “Türkçe için ‘Kendi Kendine Derlem’ Platformu Oluşturma”. Mersin [Yürütücü].

Proje Özeti

Bu projenin amacı, Türkçe üzerine çalışan dil/dilbilim araştırmacıları için araştırmacıların araştırma sorularına bağlı olarak biçimlendirilebilen, araştırmacıya özel, esnek, kolay ulaşılabilir, veri tabanı destekli ve bu çerçevede araştırma sonuçlarının sağlıklı bir şekilde raporlanabildiği bir derlem platformu geliştirmektir.

Bilindiği üzere batı dilleri için geliştirilmiş olan metin işleme/derlem yazılımları o dillere özgü standart birtakım veri işleme özelliklerine sahiptir. Türkçe için kısmen kullanılabilen söz konusu yazılımlar, Türkçe karakter desteği sunabilmelerine karşın bu yazılımların en büyük eksikliği, oluşturuldukları diller de dahil olmak üzere, araştırma sorularına bağlı olarak işlenen verilerin standart olması, ortaya çıkan raporların saklanamaması ve amaca uygun olarak düzenlenememesidir. Bu yazılımların belirli alanlarda özelleşmiş olmaları da söz konusu yazılımların eksiklikleri olarak değerlendirilebilir. Örneğin, AntConc, WordSmith Tools, MonoConc Pro, TextStat, Nooj benzeri sık kullanılan paket yazılımlar sıklık, bağımlı dizin, anahtar sözcük gösterimi, n-gram hesaplama, eşdizimlilik hesaplama gibi geliştirildikleri diller için çıktılar verebilmektedir. Kısmen de olsa bu çıktılar metin belgeleri olarak dışa aktarılabilmekte ve sonuç olarak araştırmacı metin yığınlarından elde edilmiş ancak ayrıştırılmamış, filtrelenmemiş başka bir metin yığını ile karşı karşıya kalmaktadır. Söz konusu paket yazılımların bir diğer olumsuz yönü farklı işletim sistemlerine özgü olmalarıdır. Her ne kadar paket yazılımların UNIX, Mac, Windows gibi farklı işletim sistemleri için sürümleri mevcutsa da bu durum programlara erişimi ve kullanımını genellikle zorlaştırabilmektedir.

Oysa dil/dilbilim çalışmaları bugün daha ayrıntılı araştırma sorularına cevap arama eğilimindedir. Türkçe üzerine yürütülen derlem çalışmalarının sınırlılığı ve gün geçtikçe derlem oluşturma ve derlem dilbilim yöntemleriyle Türkçeyi değerlendirme eğiliminin de arttığı bir gerçektir. Ayrıca söz konusu metin işleme/derem yazılımlarını kullanmayı öğrenmek bile başlı başına bir iş olarak araştırmacıların karşısında durmaktadır. Diğer taraftan her dilbilimciden derlem oluşturma/işleme gibi özel bir alana dair yazılım bilgisi edinmesi de pratik bir yaklaşım gibi görünmemektedir. Bu anlamda kullanıcı dostu, kolay erişilebilir, araştırma sorularına bağlı olarak geliştirilebilen esnek bir platforma ihtiyaç vardır. Kullanıcı dostu ve sadece bir tarayıcı (browser) aracılığıyla oluşturulacak olan Türkçe için “Kendi Kendine Derlem Platformu” (KKDP) söz konusu tüm olumsuzlukları kullanıcının yararına dönüştürebilecektir.

Önerilen “Kendi Kendine Derlem Platformu” her geçen gün geçerliliği artan bir uygulama alanı olan derlem dilbilimin ilke ve yöntemlerini kuramsal ve uygulamalı açıdan temel alarak oluşturulacaktır. Bu çerçevede proje dilbilimcilere var olan standart derlem çıktıları vermenin yanında araştırmacıların araştırma sorularına bağlı olarak biçimlendirilebilen, araştırmacıya özel, esnek, kolay ulaşılabilir, veri tabanı destekli ve araştırma sonuçlarının sağlıklı bir şekilde raporlanabildiği bir derlem altyapısı sunmayı hedeflemektedir. Proje ekibi söz konusu derlem altyapısını oluşturacak olan bütünleşik sistemin parçalarını farklı derlem projelerinde başarılı sonuçlar üreterek deneyimlemiştir (bk. 7.3.2. Proje Ekibinin Önerilen Proje Konusuyla İlgili Projeleri) Bu noktada proje ekibi edindiği birikimi diğer dilbilimcilerin de istifadesine sunmayı amaçlamaktadır.

Diğer taraftan, son yıllarda dünyada bilişim teknolojilerinin sunduğu olanaklar dil/dilbilim alanında yürütülen bilimsel çalışmaların nitelik ve niceliğini arttırmıştır. Önerilen projeyle, Türkçe üzerine yürütülen çalışmaların da nitelik ve niceliğinin artacağı öngörülmektedir. Bu anlamda batıda uygulamalı dilbilim çerçevesinde karşımıza çıkan dilbilgisi, ağız, çeviri bilim, tarihsel dilbilgisi ve dilsel değişim, dil öğrenimi ve öğretimi, anlambilim, kullanımbilim, toplum dilbilim, söylem çözümlemesi, biçembilim ve yazınbilim gibi dilbilimin alt dallarında (McEnery vd., 2006) araştırmacılar derleme dayılı çalışmalar yürütebilme olanağına sahip olacaklardır. Örneğin, sözcük anlambilimi ya da cümle anlambilimiyle ilgilenen bir araştırmacı standart derlem işleme basamaklarının yanında kendi derleminde yer alacak olan tabakaları ve metinleri belirleyebilecek, tabakaların ve metinlerin metadatalarının girişini yapabilecek, istediği dil birimini araştırma soruları çerçevesinde istediği etiketleri kullanarak işaretleyebilecek ve sonuç olarak tüm bunları sağlıklı bir şeklide raporlayabilecektir.

Project Summary

The aim of this project is to develop a corpus platform which can be shaped in line with the research questions of the scholars, and which is special for the scholar, user friendly, and supported with database. Considering this perspective, this corpus is going to provide a corpus platform in which the results of the research can be reported in a functional way.

As it is known, corpora of Western languages have the standard properties which are specific to apply the data of those languages. Corpora softwares have the opportunity to support its users with Turkish charecters. The biggest limitation of those corpora softwares, including the languages they have been formed, is that the data shaped in line with the research questions cannot be stored and arranged according to research goals. Another limitation may be evaluated as the drawbacks of them. To give an example, some softwares like AntConc, WordSmith Tools, MonoConc Pro, TextStat, Nooj can print results for the target languages as for frequency, bound lists, key words, n-gram calculation and collocation calculation. Despite being partial, those prints can be transferred into text documents. The research again faces with texts which have not been filtered and separated from the other texts. Another negative side of those corpora is that they are not proper for different operating systems. Though they have got versions for different operating systems like UNIX, Mac, Windows, this situation may generally lead to difficulties in terms of accessing and using them.

On the other hand, nowadays, linguistic researchers tend to find out answers for more detailed research questions. It is a fact that there is a limitation in corpus studies, and as the days pass by, there is an increasing interest to evaluate Turkish via corpus linguistics and creating corpus. Furthermore, learning word processing and corpus softwares is an important problem for the researchers. Moreover, it is not a practical solution to make linguists learn the knowledge of softwares for creating corpora. In that sense, they need a platform which is user friendly, easy to reach and shaped in line with research questions. “Do it Yourself Corpora”, which is going to be shaped with its browser and user friendly properties, can turn the disadvantages into advantages.

The proposed “Do it Yourself Corpora” is going to be prepared in terms of the theories and the applications of corpus linguistics, which is an increasingly valid application area. Under this perspective, the project aims to present a corpus database, which can be shaped in line with the research questions of the scholars, which is special for the scholar, user friendly, and supported with database, rather than presenting only standard corpus output. The project team has already experienced successful results from the previous corpus projects as integrated parts of this project (see The previous projects of the project team on proposed topic). At this point, the project team aims to share the information they have obtained so far.

In other respects, recently, thanks to the advances in information technologies, quality and quantity of scientific studies on linguistics have increased. With the proposed project, it is predicted that the quality and quantity of Turkish studies is also going to increase. In this sense, the researchers are going to have the opportunity to conduct research on grammar, dialect, translation, historical grammar and language changes, language learning and changing, pragmatics, sociolinguistics, discourse analysis, stylistics and poetics, all of which are encountered under the perspective of applied linguistics in Western world (McEnery et al., 2006). For instance, a researcher interested in word semantics or sentence semantics will have the chance to identify texts and structures of the corpus, will enter the metadata of texts and structures, will tag the results in line with the research questions. Thus, the researcher is going to report the results in a functional way.