正则表达式实现除去重复的单词 - JAVA

起因：还是动态生成图表时的问题，因为字段是动态设定的，可以在多个轴、序列中设置字段，这就很有可能会存在字段的重复问题。重复的字段生成Sql并执行是没有问题的，但执行的结果，生成List(执行Hibernate的sqlquery.setResultTransformer(Transformers.ALIAS_TO_ENTITY_MAP).list())时就会有问题了（抛出异常）。所以就要除去查询sql字段中的重复字段。

首先想到的是把字符串分隔成数组，再添加到set中，再用Set中的字段名重新生成不重复的字段名字符串。

代码是这样的：

[java]

String s = "D_NAME,COMPANYID,COMPANY_NAME,PARENT_ID,ID,COMPANYID,COMPANY_NAME,DF_UNIFIED_CODE,DF_CLEARANCE_TAG_ID,";

String[] s1 = s.split(",");

Set set = new HashSet();

for(String ss : s1){

set.add(ss);

}

Iterator iter = set.iterator();

String newStr = "";

while(iter.hasNext()){

newStr += iter.next();

}

结果显示，重复的字段并没有去掉。

把set.add(ss);改为

[java]

if(!set.contains(ss))

set.add(ss);

结果依旧。

我不知道java是集合是怎么处理字符串的。请教java老手，说理论上Set中应该是不会重复的，但对出现这样的结果，也没有有效的解决办法。哪位大虾能告诉我这是怎么回事呀？

然后我就想到使用正则表达式来实现除去字符串的重复字段名。

第一个表达式：

(\b[\w|_]+\b, )(.*)\1(.*)，代码为：

[java]

String s = "LOWVOLTAGE_LOSS_RATE,YEARMONTH,LOWVOLTAGE_LOSS_RATE,NAME,YEARMONTH,PPQ,PPQ,SPQ,PPQ,PPQ,SPQ,CODE,LOWVOLTAGE_LOSS_RATE";

Pattern p = Pattern.compile("(\\b[\\w|_]+\\b, )(.*)\\1(.*)");

Matcher matcher = p.matcher(s);

while(matcher.find()){

s = matcher.replaceAll("$1$2$3");

System.out.println(s);

matcher = p.matcher(s);

}

if(s.endsWith(","))

s = s.substring(0,s.length()-1);

String expect = "LOWVOLTAGE_LOSS_RATE,YEARMONTH,NAME,PPQ,SPQ,CODE";

Assert.assertEquals(expect, s.substring(0,s.length()-1));

验证结果为预期结果。

本来以为到这里就已经结束了，可系统刚运行了一会，就报出了错误，跟踪发现，当要处理的字符串为：

"D_NAME,COMPANYID,COMPANY_NAME,PARENT_ID,ID,COMPANYID,COMPANY_NAME,DF_UNIFIED_CODE,DF_CLEARANCE_TAG_ID,"时，执行的结果会把“DF_CLEARANCE_TAG_ID”替换成“DF_CLEARANCE_TAG_”，这可不是我要的结果！

经改进后的正则表达式为：(\b[\w|_]+\b, )(.*)\b\1\b (.*)，再次测试，结果完全满足要求。