Ferramentas
As ferramentas que se seguem foram utilizadas, melhoradas ou criadas para este projeto.-
NATools
NATools é uma ferramenta para processamento de corpora paralelo. Incluí um alinhador ao nível frásico, um extractor de um dicionário probabilístico de tradução, um alinhador de palavras bem como um conjunto de outras ferramentas para estudar o alinhamento de corpora paralelo.
Durante o decurso do Per-Fide a ferramenta foi melhorada para a extração de PTDs de forma eficiente em corpora de grandes dimensões, bem como a adição de outras ferramentas:
- Lingua::PTD: Ferramentas para o manuseamento de dicionários de tradução;
- Lingua::PTD::More: Ferramentas para a extração de recursos como UMTS a partir de PTDs.
- Math::KullbackLeibler::Discrete: Módulo desenvolvido para a comparação de distribuições nos dicionários probabilísticos de tradução com base no algoritmo de Kullback-Leibler.
-
Open Corpus Workbench
O IMS Open Corpus Workbench (CWB) é uma colecção de ferramentas livres para gerir e consultar grandes corpora ( com dimensões na ordem dos 10 milhões até 2 biliões de palavras) com anotações linguísticas.
Em relação ao Open-CWB foram desenvolvidas as ferramentas:
- XML::TMX::CWB: uma ferramenta para a incorporação direta de memórias de tradução no sistema Open-CWB;
- CWB::CQP::More: uma interface de alto nível sobre os módulos base do Open-CWB.
- POSIX::Open3: módulo desenvolvido para permitir o uso do OpenCWB via páginas Web, nomeadamente na framework Dancer.
-
JSpell
O Jspell é um analisador morfológico derivado do corrector ortográfico ispell. (jspell = ispell++). O seu principal desenvolvimento tem sido com vista à sua utilização para a língua portuguesa. No entanto, existem dicionários para outras línguas.
- Freeling3
O FreeLing é uma bilioteca desenvolvida por Lluís Padró para o processamento linguístico (léxico e sintáctico) de várias línguas, incluindo todas as línguas do projeto Per-Fide (com excepção do alemão).
No âmbito do Per-Fide foram criadas as ferramentas:
- Lingua::FreeLing2: Interface à versão 2 do Freeling. Foi descontinuada quando o FreeLing3 foi disponibilizado.
- Lingua::FreeLing3: Interface à versão 3 do Freeling a partir da linguagem Perl.
- Lingua::FreeLing3::Utils: Conjunto de funcionalidades e utilidade implementadas sobre o Lingua::FreeLing3.
- XML::TMX
Biblioteca Perl para o manuseio de memórias de tradução. Inclui ferramentas para a tokenização e etiquetação dos corpora através da biblioteca Lingua::FreeLing3.
- XML::DT::Sequence: Implementado sistema para processamento de ficheiros XML de grandes dimensões baseados na repetição de elementos.
- TreeTagger
O TreeTagger é um conhecido etiquetador morfo-sintáctico. Foi usado essencialmente dado que o FreeLing3 não suporta a língua alemã.
No contexto do Per-Fide foi desenvolvido:
- Lingua::TreeTagger::Installer: Ferramenta para a automatização da instalação do TreeTagger bem como dos modelos de língua.
- Lingua::TreeTagger: Embora não tenha sido desenvolvido no contexto do projeto, os membros do projeto estiveram envolvidos na melhoria da ferramenta.
- Lingua::Identify::CLD
Desenvolvida interface Perl e sistema de compilação para a biblioteca Chrome Language Detection Library, desenvolvido pela Google.