专利摘要显现,本请求揭露一种多版别文件比对办法、设备、体系及存储介质,触及大数据信息处理技术领域。该办法有:获取原始文本数据,并对原始文本数据来进行预处理,得到预处理文本数据;经过词向量模型对预处理文本数据来进行词向量表明,得到词向量文本数据;经过文本结构剖析算法对词向量文本数据来进行处理,提取文本的结构化信息;根据词向量文本数据和结构化信息核算多版别文件之间的类似度;设定类似度阈值,经过类似度阈值与核算得到的多版别文件之间的类似度判别多版别文件之间是不是类似。本请求施行例供给的多版别文件比对办法考虑了语义信息、可以弹性处理格局差异、结构化信息剖析、处理文本重排和支撑大规模处理。