如题,原论文中report的sighan15的 sentence-wise的 detect和correct分别是 73.5和66.4,描述使用的训练集也是sighan13-15的三个training set以及他们自己构建多达5million的 news title数据。你这边sentence一口气提到了79.4,还是仅用sighan得数据finetune,这个差距也太大了吧
有没有可能你的统计指标跟它不一样呢。。我个人怀疑你用的是sighan15的全量数据进行测试,即无错误的负样本也计入了
但实际上后面一系列的csc文章,基本都只用正样本进行测试的