一种结合文档频率和互信息的特征项提取方法