Evanildo da Silveira
Quem já escreveu no Word, o processador de textos da
Microsoft, com certeza usou o corretor ortográfico do programa - aquele que
sublinha palavras erradas e sugere suas versões corretas. Diante da palavra
"coreta", por exemplo, ele vai indicar, por meio de uma linha
vermelha embaixo dela que está errada, e quando o corretor for acionado para
corrigir todo o texto, ele vai sugerir, para essa palavra, pela ordem:
"correta", "corveta", "corta",
"coreto", "corretas" e "careta".
O que poucos sabem é que esta tecnologia de correção de
texto para o português tem sotaque caipira - no bom sentido, é claro. Ela foi
desenvolvida no interior paulista, no Instituto de Ciências Matemáticas e de
Computação (ICMC), da Universidade de São Paulo, em São Carlos, a 241 quilômetros
da capital.
É uma longa história, que começou em 1993, quando a
Itautec, uma fábrica brasileira de computadores hoje extinta, procurou o ICMC,
por causa de seus pesquisadores com formação em computação com alguma ligação
com linguagem natural, para que desenvolvessem um sistema de correção
ortográfica - que depois evoluiu para gramatical e estilística.
Na época, a internet ainda era novidade. "A ideia
era vender o sistema na forma de um CD, principalmente para uso em escritórios,
no auxílio à redação de cartas e memorandos, ou seja, para usuários com ensino
fundamental ou médio", lembra a cientista da Maria das Graças Volpe Nunes,
do ICMC, coordenadora do projeto. "Aceitamos o desafio e, em pouco mais de
um ano, já tínhamos a primeira versão do revisor, que, como projeto científico,
ficou conhecido como ReGra."
Maria das Graças conta que, para desenvolver a tecnologia
do corretor, foi formada uma grande equipe de pesquisadores, estudantes de
computação e linguística. O projeto teve apoio da Fundação de Amparo à Pesquisa
do Estado de São Paulo (Fapesp), durante um certo período, num programa de
parceria com a Itautec. Essa empresa, por sua vez, financiou a equipe durante
15 anos seguidos.
Em 2000, a Microsoft adquiriu uma licença da Itautec para
incluir o revisor desenvolvido no ICMC nos seus programas do pacote Office. Mas
a equipe continuou a dar assessoria para a Microsoft: novas regras de correção
eram implementadas, adaptações eram feitas, como à nova ortografia do
português, entre outras coisas. "Em 2008, a Itautec vendeu definitivamente
os direitos do produto à Microsoft, e portanto o projeto chegou ao final, com
bastante sucesso, por sinal", diz Maria das Graças.
Seu colega no projeto, o físico Osvaldo Novais de
Oliveira Junior, do Instituto de Física da Universidade Federal de São Carlos
(UFSCar), diz que o ReGra foi o primeiro revisor gramatical desenvolvido para o
português.
"No nosso caso, com o léxico da versão brasileira da
nossa língua", explica. "Quase na mesma época, uma empresa em
Portugal, ativa até hoje, desenvolveu um revisor para a versão do idioma como é
falado lá. O lançamento do deles deve ter ocorrido pouco depois do nosso."
Segundo Oliveira, o ReGra faz revisão com base em regras
- algumas de análise sintática e algumas empíricas, de maneira semelhante ao
revisor do inglês disponível no Word da Microsoft. "Ao que eu saiba, a
Microsoft nunca desenvolveu revisor para o português", diz.
Procurada pela BBC Brasil a empresa se manifestou por
meio de uma nota: "Inicialmente, a Microsoft realizou acordos para a
utilização de licenças de corretores ortográficos de terceiros para muitos
idiomas ao redor do mundo, mas gradativamente todos eles foram migrados para a
plataforma da empresa. A ferramenta brasileira fez essa migração na versão do
Office 2010, o que significa que a tecnologia presente no produto já é 100%
Microsoft."
De acordo com Oliveira, pode-se dizer que houve
pouquíssimo avanço em revisão gramatical automática nos últimos anos, pois
aparentemente as empresas não estão dispostas a fazer grandes investimentos.
"Isso seria necessário, pois hoje um revisor gramatical poderia ser muito
mais eficiente se combinasse regras com métodos estatísticos e de aprendizado
de máquina", complementa.
Oliveira diz que a Itautec "apostou muito numa equipe
de jovens pesquisadores, sem garantia de retorno. Apenas para ilustrar, a
Itautec investiu o equivalente a cerca de US$ 2 milhões (tínhamos que memorizar
valores em dólares, pois a inflação em 1993 ainda era muito alta) nos primeiros
anos do trabalho. Não prometemos fazer o revisor, mas apenas um estudo sobre o
que era necessário e como criá-lo."
O investimento da Itautec tornou possível a formação de
uma equipe multidisciplinar, e multi-institucional, que congregava professores
das universidades de São Paulo (USP), Federal de São Carlos (UFSCar), e
Estadual Paulista (Unesp) do câmpus Araraquara, para realizar pesquisas na área
de Processamento de Linguagem Natural (PLN).
"Acho que ainda em 1993 decidimos que o grupo
deveria ganhar um nome, que é o mesmo até hoje: Núcleo Insterinstitucional de
Linguística Computacional (NILC)", lembra Oliveira. "A meu ver, a
criação dele é o maior legado do Projeto ReGra."
De acordo com ele, o NILC é hoje um dos maiores centros
de geração de tecnologia para o processamento automático do português.
"Certamente é o que mais disponibilizou gratuitamente recursos
lingüísticos computacionais para o nossa idioma", diz.
"Isso foi possível porque, desde o início, adotamos
a política de franquear os recursos, como léxicos, corpus (base de textos,
escritos ou falados, organizada e anotada, que possa servir como recurso
linguístico-computacional) e ferramentas de processamento a colegas de todo o
mundo. Mesmo aqueles recursos acessórios para o desenvolvimento do ReGra foram
disponibilizados, com a autorização da Itautec."
Mas o NILC não parou por aí. Oliveira destaca os projetos
que o núcleo desenvolveu e vem desenvolvendo nas áreas de tradução automática,
terminologia, simplificação de texto, reconhecimento de autoria, identificação
de fake news (notícias falsas), sistemas de busca, uso de linguagem para
detecção de doenças e reconhecimento de fala, por exemplo.
"Ressalto que o processamento automático de língua
natural está presente em muitos produtos, como os assistentes inteligentes que
reconhecem voz e obedecem a comandos, os tradutores automáticos e os sistemas
de busca na internet", explica.
Segundo ele, são tantos os produtos que muitos dos
desenvolvedores já não se referem ao trabalho como sendo de Processamento de
Linguagem Natural. "Como hoje uma das tarefas mais relevantes na
tecnologia é ensinar uma máquina a ler (e compreender), o PLN é uma das áreas
mais importantes de ciência e tecnologia", diz.
"Ninguém fala nisso, mas uma análise detalhada dos
sistemas inteligentes (cerne da Inteligência Artificial) indica claramente que
essa afirmação é irrefutável."
BBC - Brasil
Nenhum comentário:
Postar um comentário