[java] 将日文汉字转换为罗马字

在工作中遇到需要将日文变量名转换成日文罗马字变量名的情况，需要将日文转换为罗马字。找了开源工具，经测试能将部分日文汉字转为罗马字。外来语的转换基本不行，以后有时间再找找方法。

添加依赖项：

在java项目中添加依赖项，以Maven为例，在pom.xml中添加：

<dependencies>
  <!--将日文转为假名-->
  <dependency>
    <groupId>com.atilika.kuromoji</groupId>
    <artifactId>kuromoji-ipadic</artifactId>
    <version>0.9.0</version>
  </dependency>
  <!--将日文转为罗马字-->
  <dependency>
    <groupId>com.github.nicolas-raoul</groupId>
    <artifactId>jakaroma</artifactId>
    <version>1.0.0</version>
  </dependency>

  <!--log4j日志-->
  <dependency>
    <groupId>org.apache.logging.log4j</groupId>
    <artifactId>log4j-core</artifactId>
    <version>2.14.1</version>
  </dependency>
</dependencies>

Gradle 依赖项配置示例:

dependencies {
    // 将日文转为假名
    implementation 'com.atilika.kuromoji:kuromoji-ipadic:0.9.0'

    // 将日文转为罗马字
    implementation 'com.github.nicolas-raoul:jakaroma:1.0.0'
		// log4j日志
		implementation 'org.apache.logging.log4j:log4j-core:2.14.1'
}

配置Log4j 配置文件 log4j2.xml：

用于定义日志记录器、输出格式、日志级别等配置。

<?xml version="1.0" encoding="UTF-8"?>
<Configuration>
    <Appenders>
        <Console name="Console" target="SYSTEM_OUT">
            <!--<PatternLayout pattern="%d [%t] %-5level %logger{36} - %msg%n" />-->
            <PatternLayout pattern="%msg%n" />
        </Console>
    </Appenders>
    <Loggers>
        <Root level="info">
            <AppenderRef ref="Console" />
        </Root>
    </Loggers>
</Configuration>

将日文汉字转为罗马字的java代码示例：

import com.atilika.kuromoji.ipadic.Token;
import com.atilika.kuromoji.ipadic.Tokenizer;
import fr.free.nrw.jakaroma.Jakaroma ;
import org.apache.logging.log4j.LogManager;
import org.apache.logging.log4j.Logger;

import java.io.OutputStream;
import java.io.PrintStream;
import java.util.List;

public class JapaneseToRomanConverter {
    private static final Logger logger = LogManager.getLogger(JapaneseToRomanConverter.class);

    public static String convertToRoman(String japaneseText) {
        Tokenizer tokenizer = new Tokenizer();
        List<Token> tokens = tokenizer.tokenize(japaneseText);
        StringBuilder romanText = new StringBuilder();

        for (Token token : tokens) {
            romanText.append(token.getPronunciation());
        }

        return romanText.toString();
    }

    public static void main(String[] args) {
        // 使System.out.print失效，仅使用log4j输出:
        // 创建一个空的输出流对象
        OutputStream outputStream = new OutputStream() {
            @Override
            public void write(int b) {
                // 空实现，忽略所有的输出
            }
        };
        // 将标准输出流重定向到自定义的输出流对象
        System.setOut(new PrintStream(outputStream));

        // 设置需要转换的日文汉字
        String japaneseText = "検索操作";
        // カタカナ
        String katakanaText = convertToRoman(japaneseText);
        logger.info(katakanaText);

        // Romaji
        Jakaroma instance = new Jakaroma();
        String romajiText =  instance.convert(katakanaText, false, true);
        // 将长音"-"符变为"u"
        romajiText = romajiText.replace("-","u");
        logger.info(romajiText);
    }
}

将java类中的变量名注释和变量名提取出来：

有的时候日文变量和对应的罗马字已经在其他java类里定义好了，需要提出出来使用。举个例子：

/** 
*  姓名
*  @generated
*/ 
private String name; 
/** 
*  年龄
*  @generated
*/ 
private String age;
/**
*  性别
*/
public String gender;

这种情况，需要将汉字和英文一一对应提取出来：

姓名，name
年龄，age
性别，gender

那么可以用以下方法，使用正则表达式匹配注释后跟着变量声明的格式，将其提取出来：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class VariableAnnotationExtractor {
    public static void main(String[] args) {
        String classDefinition = "/** \n" +
                "*  姓名\n" +
                "*  @generated\n" +
                "*/ \n" +
                "private String name; \n" +
                "/** \n" +
                "*  年龄\n" +
                "*  @generated\n" +
                "*/ \n" +
                "private String age;" +
                "/**\n" +
                "*  性别\n" +
                "*/\n" +
                "public String gender;";

        Pattern pattern = Pattern.compile("/\\*\\*\\s*\n\\*\\s*([^\\n]+)\\s*\n(\\*\\s*@\\w+)?\\s*\\*/\\s*\n(private|public)\\s+\\w+\\s+(\\w+);");
        Matcher matcher = pattern.matcher(classDefinition);

        while (matcher.find()) {
            String annotation = matcher.group(1).trim();
            String variableName = matcher.group(4).trim();
            System.out.println(annotation + "，" + variableName);
        }
    }
}

正则表达式 /\/\*\*\s*\n\*\s*([^\\n]+)\s*\n(\*\s*@\\w+)?\s*\*\/\s*\n(private|public)\s+\w+\s+(\w+);/ 允许在注释中添加额外的行，并且可以匹配 private 或 public 修饰符。使用了 (\\*\\s*@\\w+)? 部分来匹配可能存在的 @generated 注释行。

[java] 将日文汉字转换为罗马字

小罗的博客