Apache OpenNLP è un toolkit che sfrutta l'apprendimento automatico per l'elaborazione dei testi in linguaggio naturale. Supporta i compiti più comuni in ambito NLP, come il rilevamento della lingua, la tokenizzazione, la sentence segmentazione, l'etichettatura delle parti del discorso, la named entity extraction, il chunking, il parsing e la coreference resolution. Questo genere di compiti sono solitamente necessari per sviluppare servizi di elaborazione testuale più avanzati.

La libreria è scritta in Java e può essere facilmente integrata in progetti Java o in progetti che utilizzano la Java Virtual Machine (JVM).

Dettagli

  • Identificazione della lingua: il “LanguageDetector” richiede un modello addestrato. OpenNLP stesso offre il modello completamente addestrato langdetect-183.bin come download. Questo è in grado di identificare 103 lingue.
  • Riconoscimento delle frasi: il “SentenceDetector” riconosce se un punto fermo segna la fine di una frase o se ha un significato diverso. Anche in questo caso è necessaria la specifica di un modello addestrato. OpenNLP fornisce modelli per varie lingue, ad esempio opennlp-it-ud-vit-sentence-1.2-2.5.0.bin per il riconoscimento delle frasi nei testi italiani.
  • Tokenizzazione: il tokenizer divide una stringa di caratteri in token. I token sono solitamente parole, segni di punteggiatura, numeri, ecc.
  • Etichettatura part-of-speech: OpenNLP dispone di una selezione di modelli pre-addestrati per 32 lingue (tedesco, inglese, spagnolo, portoghese, danese, ecc.). Questi modelli possono essere utilizzati per etichettare automaticamente un corpus di testo in una di queste lingue.
  • Estrazione di entità denominate: Il “TokenNameFinder” può riconoscere le entità denominate e i numeri nel testo. Per riconoscere le entità è necessario un modello. Il modello dipende dalla lingua e dal tipo di entità per cui è stato addestrato. Il progetto OpenNLP offre una gamma di modelli pre-addestrati che sono stati addestrati su vari corpora liberamente disponibili. Possono essere scaricati dalla pagina di download dei modelli.

Note

Voci correlate

  • Apache UIMA (Unstructured Information Management Architecture)
  • Apache Software Foundation
  • Licenza Apache

Collegamenti esterni

  • Sito ufficiale, su opennlp.apache.org.
  • (EN) Apache OpenNLP, su GitHub.
  • Repository sorgenti di Apache OpenNLP, su github.com.
  • Sito di segnalazione bug, su issues.apache.org.

Images of Apache OpenNLP JapaneseClass.jp

kinow Apache OpenNLP Logo

Powered by Apache OpenNLP Apache OpenNLP

How to use command line tools in Apache OpenNLP?

How to use command line tools in Apache OpenNLP?