Nova ferramenta: Determinar Sexo a partir do Nome

Está aqui: Determinar Sexo a partir do Nome. Enjoy.

Fiz isto durante a tarde de ontem, em sequência de uma conversa com os colegas sobre qual seria a melhor forma de resolver este problema (por exemplo, para enviar mass mails sem dizer genericamente “Sr./Sra.”). Uma forma já existente ia apenas pela última letra do nome, mas isso tinha imensas falhas, obviamente, e houve quem sugerisse uma base de dados exaustiva de nomes portugueses. Mas eu achei que isto seria possível fazer através de regras, baseadas na última sílaba do nome, e depois com um conjunto de excepções para nomes que não “colaborem” com essas regras.

Foram necessárias mais excepções do que pensava, mas neste momento acredito que não está fácil arranjar um nome próprio português europeu em que o programa falhe. Se conseguirem, respondam aqui, please.

Obrigado, já agora, aos membros do VideoGamer-PT e do PokéFórum-PT pelo beta testing, durante a tarde e noite de ontem. 🙂

14 Comentários a “Nova ferramenta: Determinar Sexo a partir do Nome”

  1. jane diz:

    Aqui diz que “Piedade” é um nome masculino.

    • Posso estar enganado, mas… há pessoas com “Piedade” como primeiro nome, em Portugal?

      Tenho a ideia de que é daqueles nomes que só aparecem em segundo lugar, tipo “Maria da Piedade”. Nesse caso, o primeiro nome é Maria, e é correctamente detectado.

      O mesmo para Maria José, Maria João, Maria de Jesus, e afins. Pode ser que toda a gente chame a determinada mulher “João”, mas o primeiro nome dela é “Maria”…

  2. “Pina” “Moura”

    Feminino?

    😀

    É capaz de ser mais uma das situações que se enquadra na perspectiva do teu último comentário, mas vamos imaginar a seguinte situação:

    Alguém se regista num serviço colocando apenas dois nomes, exemplo: “Pina Moura”.

    Quando o sistema enviar alguma comunicação electrónica ou escrita, irá aparecer Sr.ª Pina Moura!

    E em abstracto até pode ser correcto, pode existir uma senhora Pina Moura, mas em concreto tanto podem existir um senhor Pina Moura, como uma senhora Pina Moura.

    Tudo para concluir que a aplicação, em variados casos, pode falhar a menos que o sistema apenas aceite registos onde seja obrigatório colocar um “primeiro nome”. E mesmo aqui é preciso partir do princípio que a pessoa lá coloca mesmo o primeiro nome.

    • São apelidos. O programa é para nomes próprios. Aliás, apelidos não têm sexo… 🙂

      Mais uma vez: só porque toda a gente trata alguém por um nome, não faz com que isso seja o primeiro nome dele/dela. As Marias Joãos podem ser “a João” para toda a gente, assim como o presidente actual é “o Cavaco”, mas os primeiros nomes são “Maria” e “Aníbal”, respectivamente.

      • Desculpa, editei para melhor me fazer entender.

        • OK, mas a única coisa que permite a dedução é o primeiro nome. Se uma pessoa não o preenche (correctamente), não se pode esperar milagres. 🙂

          • De qualquer forma nem sempre é assim, existem primeiros nomes que tanto dão para o masculino como para o feminino. Floripes é um primeiro nome extremamente raro, mas que tanto pode ser utilizado para mulheres como para homens.

            Existe Floripe e Floripa, derivações também raras, e que são mais óbvias, mas também existe e continua a existir Floripes, não deixando de ser um primeiro nome.

            Não estou a ver um exemplo mais comum, mas se entretanto me lembrar de algum eu venho aqui postar.

  3. Parabéns! Achei fantástico. No meu departamento estamos diariamente a enviar cartas para os nossos queridos clientes e passamos horas a corrigir os títulos das cartas porque os sistema de determinação do sexo depende de uma escolha feita no sistema. O que acontece é que quando inserem os dados do cliente quase ninguém se lembra de ir à “caixinha” escolher masculino/feminino.
    Acredita, com isto poupavas-me tanto trabalhinho!!! I say, sell it! 😉

    • Por acaso, tinha pensado nisso pouco antes de ler este comentário. 🙂

      Alterar isto para processar uma lista de nomes e emails (por exemplo, em CSV) e devolver uma versão com os “Exmos. Srs.” atrás de cada nome e de acordo com o sexo seria algo trivial… coisa para minutos. Exportar para CSV (de uma base de dados, de um ficheiro Excel, etc.) é fácil, e importar também. Acredito que isto poderia ser muito útil em muito sítio.

      O meu problema (e toda a gente que ler isto, incluindo tu, vai-me chamar estúpido e otário) é que me sinto mal a cobrar por algo que 1) demorou menos de um dia a fazer, e 2) qualquer informático saberia também realizar. Ou seja, se eu estivesse numa empresa que não fosse de serviços informáticos e o meu chefe me pedisse isto, ou houvesse esta necessidade, eu seria capaz de o fazer em meio dia (já contando com os ajustes às regras; a programação em si demorou minutos); logo, assumo que qualquer informático mais ou menos decente também o consiga (talvez melhor numas coisas e pior noutras).

      A única forma de vender isto seria a engravatados “incultos” — daqueles que acham que uma animação Flash numa página é a coisa mais fixe que já viram, e querem o mesmo para o seu próprio site, mesmo que fique horrível e user-unfriendly. E sinto-me um pouco mal a enganar pessoas.

      De qualquer forma, vou continuar a melhorar isto — incluindo fazer uma versão sem ser web-based –, e depois logo se vê.

  4. Boas,

    Uma bela ideia e, parece-me, bem executada.

    No entanto, penso que não estás a ver o real valor daquilo que produziste.
    Em primeiro lugar, o valor está nas regras/excepções e não no software em si mesmo.

    Em segundo lugar, parece-me que a abordagem funciona igualmente bem para outros substantivos.
    Por exemplo, “lisboa”, “porto”, “cadeira”, “autocarro”, “rio”, “lua” têm o seu género correctamente detectado.
    Nesse âmbito mais alargado, esta ferramenta seria muito valiosa para, por exemplo e assim de repente, ferramentas de auto-estudo de português para estrangeiros (aprender o género correcto dos substantivos é, a par das conjugações verbais, uma das maiores dificuldades na aprendizagem do português).

    Esta ideia parece-me ter pernas para andar… penso que devias reequacionar essa tua opção de não explorar isto como ferramenta…