System tłumaczenia automatycznego opracowany na potrzeby poprawy bezpieczenstwa publicznego
Kierownik projektu:
Prof. dr hab. Krzysztof Jassem - Uniwersytet im. Adama Mickiewicza
Instytucja realizująca
projekt:
Uniwersytet im. Adama Mickiewicza, Wydział Matematyki i Informatyki
Cel projektu: Celem projektu jest opracowanie i wdrożenie systemu tłumaczenia automatycznego wysokiej jakości na potrzeby poprawy bezpieczeństwa międzynarodowego.
Opis projektu:
Projektowany system tłumaczenia automatycznego zapewni wysoką jakość tłumaczenia dzięki wykorzystaniu
korpusów z dziedziny bezpieczeństwa publicznego. Korpusy te zostaną wykorzystane w dwojaki sposób:
- uzyskany zostanie słownik polsko-angielski fraz o wielkości przekraczającej 1 milion jednostek,
- zbudowana zostanie pamieć tłumaczeń, w której przechowywane będzie ponad 8 milionów jednostek tłumaczenia.
System translacji automatycznej może zrealizować postulat niezwykle trudny do osiągnięcia w tłumaczeniu
ludzkim: jednorodność tłumaczenia terminologii. Na przykład, z korpusu odpowiadających sobie tekstów z Oficjalnego
Dziennika Unii Europejskiej w języku polskim i angielskim, który składa sie z ok. 2 500 000 jednostek tłumaczenia, udało się
automatycznie wyekstrahować 470 000 różnych fraz języka angielskiego (tradycyjne wielkie słowniki zawierają zaledwie od
50 000 do 80 000 fraz). Wstępna analiza wykazuje, że około 60% z tych fraz stanowią terminy, które powinny zostać
przełożone na język polski w jeden określony sposób (tymczasem w analizowanych dokumentach wiekszość terminów
posiada dwa lub więcej różnych odpowiedników). Od tłumaczenia dokumentów istotnych dla bezpieczeństwa oczekuje się
natomiast, by zdania tej samej treści były zawsze przełożone w ten sam sposób.
Prace bedą koncentrować się przede wszystkim nad zapewnieniem wysokiej jakości tłumaczenia z języka angielskiego na język polski i odwrotnie. Wytworzony system umożliwi jednakże tłumaczenie z i na inne języki: w szczególnosci niemiecki, rosyjski i francuski, czyli języki najważniejsze z punktu widzenia geopolitycznego położenia Polski. W celu uzyskania poprawnej analizy składniowej tych języków, zostaną wykorzystane nowoczesne modele lingwistyczne oparte na istniejących korpusach opisanych składniowo.
Osiagnięte narzędzia bedą mogły być wykorzystywane do tłumaczenia w sposób automatyczny dokumentów Unii Europejskiej, np. w Systemie Informacyjnym Schengen. Zastosowanie tłumaczenia automatycznego będzie również bardzo przydatne w czasie międzynarodowych imprez masowych, w znacznym stopniu usprawniając prace organów odpowiedzialnych za bezpieczeństwo publiczne, np. podczas Mistrzostw Europy w piłce nożnej EURO 2012. Prowadzone badania mają na celu stworzenie prototypu systemu tłumaczenia mowy. We współpracy z zespołem prof. Grażyny Demenko, który w ramach PPBW realizuje projekt rozpoznawania mowy ciagłej języka polskiego, zrealizowany został prototyp systemu tłumaczenia mowy języka polskiego i angielskiego.


