3.自动在线搜索,并排除黄页,博客类,新闻类,某些具有明显非潜在客户特征的,过滤同行公司及重复网址,将余下的网址网站内容的文本数据下载到本机电脑上,对于一个中等规模的行业,下载到本地电脑上的文件大小可能达到几佰G以上.(为何要下载获取的网站文本内内容到本地电脑原因)
4.在本机电脑上,对下载的文本数据用按如下处理流程进行精确匹配. 得得高精确度的中间数据 (1) 文本向量化,按 TF-IDF, (Mutual Information)与CHI等三种方法生成向量. (2) 按已分类文本语种生成对应的训练集 .(3) 用朴素贝叶斯、随机森林与 KNN 三种分类方法对上述向量化数据进分类处理,得到较精确的中间数据结果。(4) 根据第三步结果,调整训练集,重复(2)(3), 以得到更精确的数据分类中间结果 5.给用户提供二种数据,供用户选择。
6. 初步提交可用数据时间,1个月,全面数据提交时间,2个月, 其后每3个月重新扫描全部关键词,以提取新的潜在客户数据