首先想到的是把字符串分隔成数组,再添加到set中,再用Set中的字段名重新生成不重复的字段名字符串。
代码是这样的:
[java]
String s = "D_NAME,COMPANYID,COMPANY_NAME,PARENT_ID,ID,COMPANYID,COMPANY_NAME,DF_UNIFIED_CODE,DF_CLEARANCE_TAG_ID,";
String[] s1 = s.split(",");
Set set = new HashSet();
for(String ss : s1){
set.add(ss);
}
Iterator iter = set.iterator();
String newStr = "";
while(iter.hasNext()){
newStr += iter.next();
}
结果显示,重复的字段并没有去掉。
把set.add(ss);改为
[java]
if(!set.contains(ss))
set.add(ss);
结果依旧。
我不知道java是集合是怎么处理字符串的。请教java老手,说理论上Set中应该是不会重复的,但对出现这样的结果,也没有有效的解决办法。哪位大虾能告诉我这是怎么回事呀?
然后我就想到使用正则表达式来实现除去字符串的重复字段名。
第一个表达式:
(\b[\w|_]+\b, )(.*)\1(.*),代码为:
[java]
String s = "LOWVOLTAGE_LOSS_RATE,YEARMONTH,LOWVOLTAGE_LOSS_RATE,NAME,YEARMONTH,PPQ,PPQ,SPQ,PPQ,PPQ,SPQ,CODE,LOWVOLTAGE_LOSS_RATE";
Pattern p = Pattern.compile("(\\b[\\w|_]+\\b, )(.*)\\1(.*)");
Matcher matcher = p.matcher(s);
while(matcher.find()){
s = matcher.replaceAll("$1$2$3");
System.out.println(s);
matcher = p.matcher(s);
}
if(s.endsWith(","))
s = s.substring(0,s.length()-1);
String expect = "LOWVOLTAGE_LOSS_RATE,YEARMONTH,NAME,PPQ,SPQ,CODE";
Assert.assertEquals(expect, s.substring(0,s.length()-1));
验证结果为预期结果。
本来以为到这里就已经结束了,可
系统刚运行了一会,就报出了错误,跟踪发现,当要处理的字符串为:
"D_NAME,COMPANYID,COMPANY_NAME,PARENT_ID,ID,COMPANYID,COMPANY_NAME,DF_UNIFIED_CODE,DF_CLEARANCE_TAG_ID,"时,执行的结果会把“DF_CLEARANCE_TAG_ID”替换成“DF_CLEARANCE_TAG_”,这可不是我要的结果!
经改进后的正则表达式为:(\b[\w|_]+\b, )(.*)\b\1\b (.*),再次测试,结果完全满足要求。