Programas por wikipedia2xml.sf.net

  • wikipedia2XML Grátis

    Uma coleção de scripts python para criar e manusear um corpus XML (uma grande coleção de texto para fins linguísticos) a partir de um depósito de dados original da Wikipedia. Inclui um parser baseado em expressão regular para