Microsoft araştırmacıları, üzerinde uzun bir süredir çalışmış olduğu konuşma tanıma sisteminde büyük gelişme katetti. Bundan bir yıl önce, Microsoft’un konuşma ve diyalog araştırma grubu, sistemini %5.9 kelime hata oranına ulaştıracak şekilde düzenlemişti.
Genel olarak insanların ortalama hata oranın bu olduğu düşünülüyordu. Ancak diğer araştırmacılar tarafından yapılan çalışmalar, bu oranın %5.9 değil %5.1 olduğunu ortaya koymuştu.
Microsoft, yaptığı çalışmalar sonucu şimdi konuşma tanıma sisteminin %5.1 hata oranı ile çalıştığını duyurdu. Sistemin hata oranını geçen yılın kıstas sonuçlarına göre; yaklaşık %12 oranında azaltmak için ekip, sinir ağı tabanlı akustik ve dil modellerine bir dizi iyileştirme ekledi.
Sistemin tüm bileşenleri için yapılan genel güncellemelerin üstünde, modelin kelime dağarcığı boyutu yaklaşık 30.000 kelimeden 165.000’e yükseltildi.
En önemlisi, araştırmacılar “diyalog oturumu tabanlı kısa ve uzun süreli hafıza” olarak adlandırdıkları içeriği dahil ettiler. Basitçe söylemek gerekirse, yeni dil modeli, belirli cümleleri net bir şekilde belirlemeye çalışırken sistemin tüm önceki konuşmayı geçmiş olarak kullanmasını sağlıyor.
Ekip, konuşma tanıma alanında yapılması gereken çok iş olduğunu söylüyor. Yaşanan bu son gelişme ile yüksek sesli ortamlarda konuşmayı tanımak veya vurgulu konuşmayı çözmek gibi daha karmaşık sorunların da giderildiğini belirtelim.