Is Apache Tika able to learn foreign languages such as Chinese, Japanese?

Question

Is Apache Tika able to learn foreign languages such as Chinese, Japanese?

Can Apache Tika learn foreign languages such as Chinese, Japanese?

I have the following code:

    Detector detector = new DefaultDetector();
    Parser parser = new AutoDetectParser(detector);
    InputStream stream = new ByteArrayInputStream(bytes);
    OutputStream outputstream = new ByteArrayOutputStream();
    ContentHandler textHandler = new BodyContentHandler(outputstream);
    Metadata metadata = new Metadata();
    // Set<String> langs = LanguageIdentifier.getSupportedLanguages();
    // metadata.set(Metadata.CONTENT_LANGUAGE, lang);
    // metadata.set(Metadata.FORMAT, hint);
    ParseContext context = new ParseContext();
    try {
        parser.parse(stream, textHandler, metadata, context);
        String extractedText = outputstream.toString();
        return extractedText;
    } catch (IOException e) {
        e.printStackTrace();
    } catch (SAXException e) {
        e.printStackTrace();
    } catch (TikaException e) {
        e.printStackTrace();
    }

If the input is a document file containing Chinese characters, each Chinese character will be extracted as a “?”.

Thank you so much!

+5

apache apache-tika

user2182833 Mar 26 '13 at 13:58

source share

2 answers

Gagravarr · Answer 1 · 2013-09-18T09:54:22+0000

Apache Tika can extract Unicode text from supported file formats. While the file format can store Unicode text (for example, Chinese or Japanese characters), Apache Tika can extract it

Tika , , . . Tika app , , :

$ java -jar tika-app-1.4.jar --text testMSG_chinese.msg | head
Alfresco MSG format testing ( MSG 格式測試 )
    From
    Tests Chang@FT (張毓倫)
    To
    Tests Chang@FT (張毓倫)
    Recipients
    tests.chang@fengttt.com

:

$ java -jar tika-app-1.4.jar --text testRTFJapanese.rtf | head -2
ゾルゲの処刑記録、
ゾルゲと尾崎、淡々と最期

, (, utf8), , , !

Krishan Gopal · Answer 2 · 2013-09-18T06:37:55+0000

, Apache Tika , . , Apache Tika,, .

http://svn.apache.org/repos/asf/tika/branches/1.4/tika-core/src/main/resources/org/apache/tika/language/tika.language.properties

, , Doc

https://tika.apache.org/1.4/parser_guide.html

Is Apache Tika able to learn foreign languages ​​such as Chinese, Japanese?

More articles:

Is Apache Tika able to learn foreign languages such as Chinese, Japanese?