Human Computer Interaction (HCI), has become widespread in academical researches and so in daily life with the growing up of computer systems in the last quarter of 20th century and first years of 21th century rapidly. Especially problem-focused researches and approaches in machine learning, robotic, image processing and computer vision improve HCI research area and make it grow up. New problems and requirements in life, also affect and direct the HCI based applications and research areas. HCI mainly includes approaches and applications in controlling of computer softwares, computer operating systems, robots and control of devices that can be controlled near-fear or far-away. Speech and image signals have been used in order to control computer systems, interact with these kind of systems and these approaches are preferred considering the system requirements and problems. Recent advances in computer vision enable vision based systems to be widespread in HCI systems. Although vision based systems have advantages on system simplicity and ease of use, can have disadvantages like illumination effects in environment and overlapping situations. So problem-focused approaches are proposed in researches in order to eliminate the effects of these kind of problems. Vision based systems have been used for interaction in controlling electronical devices and computer softwares. Also components that used for interaction should be recognized efficiently for interaction accuracy. So machine learning approaches carry weight in this kind of studies for system decisions that are based on recognition and training processes. Not only electrical signals like speech can be used for interactions with computer systems but also visual signs which are carried out using hands, face, head and human body can be used. Especially systems that are controlled by hand signs, have increased significantly in recent years. These systems also works includes researches on recognition of sign languages which are used by deaf community for communication. This thesis aims to improve the recognition success rates for sign language recognition by analyzing the related and existing approaches. Sign languages are visual languages consist of hand, face and body motions and which are used by deaf community for communication with each other and others. Sign languages are native languages of deaf people and constitute a important percent of their communication. So, not only recognition and interpretation of these languages via computer systems are important in technological advances, but also have quite importance in social perspective.Sign languages consist of static signs (postures) and non-static signs (gestures). Proposed sign language recognition system is performed on videos of non-static (dynamic signs). In feature extraction process, a two stage spatio-temporal structure is performed. Firstly, temporal features of signs are extracted using accumulated motion image approach which is based on the intensity differences of sequential video frames and these features are presented in a single image. In second step, these features, which are in time domain, are transformed into spatial features via Discrete Cosine Transform (DCT). DCT provides coefficients that contain higher energy and feature vectors, which will be used for recognition, are obtained by selecting these coefficients in different ratios via zig-zag scanning.K-Nearist Neighbor (K-NN) classifier is employed for performance evaluation. System performance is evaluated on a dataset which contains 20 words belong to American Sign Language (ASL) and totally 800 sign videos and evaluated on a second dataset, which is collected in scope of thesis works, contains 111 words belong to Turkish Sign Language (TSL) and totally 1002 sign videos. In system recognition process, different test samples are selected via K-fold cross validation for performance analysis on datasets. Thus, it is aimed to obtain more valid success rates by using every sample in train and test sets both.Depth information of RGB-D video sequences are used effectively for improving the recognition rates of Turkish Sign Language dataset which have sign video samples captured by a Kinect sensor. Non-static signs are successfully recognized by proposed system that extract spatio-temporal features using sequential motion differences and transformation methods and that use K-NN classifier. Proposed system also has recognition rates between %95-99 on ASL dataset and %80-98 on TSL dataset.
İnsan bilgisayar etkileşimi (HCI-Human Computer Interaction), 20. yy.?ın son çeyreği ile 21. yy.?ın ilk yıllarında bilgisayar sistemlerinin hızlı bir biçimde gelişmesine paralel olarak akademik dünyadaki çalışmalarda ve bu çalışmalara bağlı olarak gündelik yaşamda kendine yer edinmiştir. Özellikle makine öğrenmesi, robotik, görüntü işleme ve bilgisayarla görü alanlarındaki problem odaklı araştırma ve çalışmalar ile bu alan ivmeli bir biçimde genişlemektedir. Yeni problemlerin hayata girmesi ve yeni ihtiyaçların doğması da kuşkusuz insan bilgisayar etkileşimine dayalı çalışmalara ve çalışma alanlarına etki etmekte ve yön vermektedir.İnsan bilgisayar etkileşimi dâhilinde temel olarak bilgisayar yazılımlarının, bilgisayar işletim sistemlerinin, robotların, uzaktan veya yakından kumanda edilmesi planlanan araçların kontrollerine yönelik araştırma ve uygulamalar yapılmaktadır. Bilgisayar sistemlerinin komuta edilebilmesinde ve bu sistemlerle etkileşimlerin sağlanmasında ses ve görüntü işaretleri kullanılmakta olup bu işaret türleri probleme ve ihtiyaca bağlı olarak tercih edilebilmektedir.Son yıllarda özellikle görüntü işleme ve bilgisayarla görü alanlarındaki gelişmelerle beraber görü tabanlı sistemlerin insan bilgisayar etkileşimlerinde kullanımı yaygınlaşmaktadır. Görü tabanlı sistemler, kullanım kolaylığı ve sistem basitliği bakımından avantaj sağlamakla beraber ortam aydınlığındaki farklılıklar ve örtüşme gibi sebeplerle sorun çıkartabilmektedir. Bu tarz sistemlere yönelik sorunların azaltılması için problem odaklı çözümlere yönelinmektedir.Elektronik cihaz ve bilgisayar yazılımına kumanda ederek etkileşim kurmak için görü tabanlı sistemler tercih edilmektedir. Etkileşimi sağlamak amacıyla, etkileşimde kullanılan öğelerin bilgisayar sistemleri tarafından yüksek başarım oranları ile tanınması da gerekmektedir. Bu amaçla makine öğrenmesi de bu tarz çalışma alanlarında sistemlerin eğitilmesi ve tanıma işlemleri gerçekleştirerek karar verilmesinde önem arz etmektedir.Sistemlerle etkileşim kurabilmek adına ses gibi elektriksel işaretlerin yanı sıra el, yüz, kafa ve vücut ile yapılan görsel işaretler de kullanılabilmektedir. Son yıllarda özellikle el hareketleri kullanılarak kontrol edilen sistemlerin sayısında önemli artışlar görülmektedir. Bu sistemler arasında, işitme ve konuşma engellilerin iletişim sağlamak amacıyla kullandıkları işaret dillerinin tanınmasına yönelik araştırmalar da mevcuttur. Bu çalışmada işaret dillerinin tanınması amacıyla mevcut yöntemler incelenerek tanıma başarısını arttırmak hedeflenmiştir.İşaret dili konuşma ve işitme engellilerin kendi aralarındaki ve başkaları ile iletişimlerinde kullandıkları; el, yüz, vücut hareketlerinden oluşan görsel bir dildir. İşaret dil, işitme ve konuşma engellilerin ana dili olarak tanımlanır ve iletişimlerinin çok önemli bir bölümünü oluşturur. Bu sebeple bu dillerin bilgisayar sistemleri tarafından tanınarak yorumlanması, her ne kadar teknolojik açıdan önemli ise sosyal açıdan da büyük önem arz etmektedir.İşaret dillerine ait hareketler durağan (posture) ve durağan olmayan (gesture) hareketlerden oluşmaktadır. Bu tez çalışmasında değerlendirilen hareketler durağan olmayan video görüntüleridir. İşaretlere ait özniteliklerin çıkarımında iki aşamalı uzam-zamansal bir yapı kullanılmıştır. İlk aşamada işaretlerin zamansal öznitelikleri, ardışıl görüntü çerçeveleri arasındaki parlaklık farklarına dayalı toplamsal imge yaklaşımı kullanılarak çıkarılmış ve tek bir imge ile ifade edilmiştir. İkinci aşamada zaman uzayında çıkarılan bu öznitelikler Ayrık Kosinüs Dönüşümü (DCT - Discrete Cosine Transform) ile uzamsal özniteliklere dönüştürülmüştür. Kullanılan dönüşüm yöntemi ile elde edilen en yüksek enerjili katsayılar farklı oranlarda, zig-zag tarama yöntemi ile seçilerek tanıma aşamasında kullanılacak öznitelikler oluşturulmuştur.Yaklaşımın başarımını sınamak amacıyla K-en yakın komşu (K-NN) sınıflandırıcısı kullanılmıştır. Sistemin eğitim ve test aşamalarında Amerikan İşaret Dili?ne (ASL) ait 20 kelimeden, toplamda ise 800 işaretten oluşan bir veri seti ile bu tez çalışması kapsamında yeni oluşturulan Türk İşaret Dili?ne (TİD) ait 111 kelimeden, toplamda ise 1002 işaretten oluşan bir veri seti kullanılmıştır. Test aşamalarında sistemin verimliliğini sınamak amacıyla çapraz doğrulama ile farklı test örnekleri seçilmiştir. Bu sayede her örneğin eğitim ve test kümelerinde kullanımı sağlanarak daha genel geçer bir sonuç alınması hedeflenmiştir.Tez kapsamında Kinect algılayıcı kullanılarak oluşturulan Türk İşaret Dili?ne ait veri setinde RGB-D video görüntülerinde derinlik bilgisi de tanıma başarısını arttırmada etkin olarak kuıllanılmıştır. Ardışıl hareket farklarını ve dönüşüm yöntemlerini kullanarak uzam-zamansal öznitelikleri çıkaran sistemle ve K-en yakın komşu sınıflandırıcısı ile ASL veri setinde %95-99, TİD veri setinde %80-98 arasında değişen başarımlarla işaret diline ait durağan olmayan görüntüler tanınabilmiştir.