看了下你的eval结果感觉有点不可思议呀

如题，原论文中report的sighan15的 sentence-wise的 detect和correct分别是 73.5和66.4，描述使用的训练集也是sighan13-15的三个training set以及他们自己构建多达5million的 news title数据。你这边sentence一口气提到了79.4，还是仅用sighan得数据finetune，这个差距也太大了吧

有没有可能你的统计指标跟它不一样呢。。我个人怀疑你用的是sighan15的全量数据进行测试，即无错误的负样本也计入了
但实际上后面一系列的csc文章，基本都只用正样本进行测试的