java编写单词数_JAVA flink小试——单词计数
本文用java来实现一个简单的fink计数单词。
本文写了两个flink版本,一个普通版本,一个lambda版本。有以下注意点:
写法差异,lambda需要调用return方法,而普通版本是不需要的。
在导包时,注意不要导成Scala中包,很多类名在flink和Scala中都有同名。会衍生出不必要的错误。比如Tuple2这个类。
在本地执行命令:
curl https://flink.apache.org/q/quickstart.sh | bash
会下载一个官网的示例,主要看中了他的pom文件。可以将他的项目导入IDEA中,编写自己的示例程序。
package org.myorg.test;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.tuple.Tuple2;
import java.util.stream.Stream;
/**
* @author lingbao08
* @DESCRIPTION
* @create 2019-09-15 13:23
**/
public class WordCount {
public static void main(String[] args) throws Exception {
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
DataSet text = env.fromElements("我是中国人,我爱中国");
//普通版本
DataSet> counts =
text.flatMap(new FlatMapFunction>() {
@Override
public void flatMap(String s, Collector> collector) throws Exception {
String[] split = s.split("");
for (String s1 : split) {
if (s1.length() > 0)
collector.collect(new Tuple2(s1, 1));
}
}
}).groupBy(0)
.sum(1);
counts.print();
}
}
lambda版本:
DataSet> counts =
text.flatMap((FlatMapFunction>) (s, collector) -> {
Stream.of(s.split("")).forEach(v -> collector.collect(new Tuple2<>(v, 1)));
}).returns(Types.TUPLE(Types.STRING, Types.INT)).groupBy(0)
.sum(1);
counts.print();