System tłumaczenia automatycznego opracowany na potrzeby poprawy bezpieczenstwa publicznego

Kierownik projektu:
Prof. dr hab. Krzysztof Jassem - Uniwersytet im. Adama Mickiewicza

Instytucja realizująca projekt:
Uniwersytet im. Adama Mickiewicza, Wydział Matematyki i Informatyki

Cel projektu: Celem projektu jest opracowanie i wdrożenie systemu tłumaczenia automatycznego wysokiej jakości na potrzeby poprawy bezpieczeństwa międzynarodowego.

Opis projektu:
Projektowany system tłumaczenia automatycznego zapewni wysoką jakość tłumaczenia dzięki wykorzystaniu korpusów z dziedziny bezpieczeństwa publicznego. Korpusy te zostaną wykorzystane w dwojaki sposób:
- uzyskany zostanie słownik polsko-angielski fraz o wielkości przekraczającej 1 milion jednostek,
- zbudowana zostanie pamieć tłumaczeń, w której przechowywane będzie ponad 8 milionów jednostek tłumaczenia.
System translacji automatycznej może zrealizować postulat niezwykle trudny do osiągnięcia w tłumaczeniu ludzkim: jednorodność tłumaczenia terminologii. Na przykład, z korpusu odpowiadających sobie tekstów z Oficjalnego Dziennika Unii Europejskiej w języku polskim i angielskim, który składa sie z ok. 2 500 000 jednostek tłumaczenia, udało się automatycznie wyekstrahować 470 000 różnych fraz języka angielskiego (tradycyjne wielkie słowniki zawierają zaledwie od 50 000 do 80 000 fraz). Wstępna analiza wykazuje, że około 60% z tych fraz stanowią terminy, które powinny zostać przełożone na język polski w jeden określony sposób (tymczasem w analizowanych dokumentach wiekszość terminów posiada dwa lub więcej różnych odpowiedników). Od tłumaczenia dokumentów istotnych dla bezpieczeństwa oczekuje się natomiast, by zdania tej samej treści były zawsze przełożone w ten sam sposób.

Prace bedą koncentrować się przede wszystkim nad zapewnieniem wysokiej jakości tłumaczenia z języka angielskiego na język polski i odwrotnie. Wytworzony system umożliwi jednakże tłumaczenie z i na inne języki: w szczególnosci niemiecki, rosyjski i francuski, czyli języki najważniejsze z punktu widzenia geopolitycznego położenia Polski. W celu uzyskania poprawnej analizy składniowej tych języków, zostaną wykorzystane nowoczesne modele lingwistyczne oparte na istniejących korpusach opisanych składniowo.

Osiagnięte narzędzia bedą mogły być wykorzystywane do tłumaczenia w sposób automatyczny dokumentów Unii Europejskiej, np. w Systemie Informacyjnym Schengen. Zastosowanie tłumaczenia automatycznego będzie również bardzo przydatne w czasie międzynarodowych imprez masowych, w znacznym stopniu usprawniając prace organów odpowiedzialnych za bezpieczeństwo publiczne, np. podczas Mistrzostw Europy w piłce nożnej EURO 2012. Prowadzone badania mają na celu stworzenie prototypu systemu tłumaczenia mowy. We współpracy z zespołem prof. Grażyny Demenko, który w ramach PPBW realizuje projekt rozpoznawania mowy ciagłej języka polskiego, zrealizowany został prototyp systemu tłumaczenia mowy języka polskiego i angielskiego.