1. 金融文本挖掘背景介绍 文本挖掘作为数据挖掘的一个分支,挖掘对象通常是非结构化的文本数据,常见的文本挖掘对象包括网页中的论坛、微博、新闻等。文本挖掘是目前金融量化研究的一个非常热门的领域,其主要原因有以下三点: 一是对传统数值型数据的研究已经相对成熟了,而对文本数据的研究处于起步状态,在全新的数据源寻找超额收益相对容易。 二是网络文本数据更直接的反应投资者的投资意向。比如说,投资者A在某论坛中发表言论提及某概念,那么表示他近期特别关注该概念的投资机会;再比如说,当投资者B想参与到某个主题投资中,那么他应该会买入那些在日常新闻中阅读到的和这些概念相关的股票。当我们以群体的方式去研究这些文本数据,便可以获取额外的信息。 三是目前网络所留存的文本数据在数量以及时间上都可以满足我们去构建成熟的量化投资模型。量化投资模型的稳定性在很大程度上取决于样本的数量,而随着近年来互联网技术的普及,网络中留存的文本数据也呈几何式增长,且普及时间也基本在 5 年以上,因此这些数据满足构建量化模型的基本要求。 在目前的文本数据研究领域,大家主要集中在对点数据的定性研究上,而对文本数据在时间序列上的定量分析较少。这主要有以下两个方面原因:一是文本数据是以非结构化的形式存储,且历史数据规模较大,这是传统统计分析难以处理的。二是文本数据获取较难,需要长时间的积累,如果早期没有进行积累的话,短期内很难获取足够长时间的数据进行时间序列分析。 2. 在众人恐惧时贪婪,在众人贪婪时恐惧 所有投资者似乎都认可这样的常识:在众人恐惧时贪婪,在众人贪婪时恐惧。然而要验证这个逻辑似乎是不容易的,最主要的原因就是对情绪的刻画没有一个标准模式,有人用市场波动率指标,也有人用换手率指标。然而通过文本挖掘,我们给出了一个更直观的方法:如果说一个投资者在股票论坛上发的帖子反应了他对当前股市的情绪,那么所有论坛的帖子反应了整个投资者群体对当前股市的情绪,基于这样的想法,我们按天去收集股票论坛中所有的发贴,并对这些帖子进行情感分析、统计分析,得到一个可量化的、反映投资者群体情绪的指标。 前文中提到的“情感分析”,可以理解为一个黑盒,这个黑盒的输入端为一段文字,输出端为一个数值,这个数值反映了这句话的情感。若数值为正,则表示这段文字是乐观的;若数值为负,则表示这段文字是悲观的。在常规的情感分析算法中,监督学习仍然是主流,主要包括一些常规的分类算法,如贝叶斯,Kmean,SVM 等;另外还有一些基于规则的方法,当然考虑到金融词汇的特殊性,还需要进行一些特别的处理。 由于中文词语博大精深,我们的测试结果显示:情感分析的正确率仅在85%左右,因此情感分析仅针对较大样本下的统计才有意义。 运用该情绪指标,我们便可以构建贪婪恐惧的择时模型。关于具体择时模型构建的信息,请参考我们后续的报告。 3. 眼球经济与主题投资 眼球经济是指依靠吸引公众注意力来获取收益的一种经济活动,在某种程度上,主题投资也是一样的,它通过不停的吸引更多投资者的注意力来维持行情。如果能够将主题投资吸引到的投资者注意力进行量化,我们在研究主题投资时便能获取更丰富的额外信息。因此,我们定义了主题热度指标,该指标反应了某个主题所受到的投资者关注量。具体的操作方法是:我们统计每日论坛中这些主题词出现的频率,然后计算其 10日移动平均值,得到主题热度指标。 图 2 所示为“特斯拉”的主题热度以及与其有较大相关性的比亚迪的走势。从中我们可以看出主题热度与主题相关股走势呈正相关关系。这也验证了主题投资的特点:主题可以通过不停的吸引更多投资者注意力来维持行情。图 3 中,传媒主题热度以及传媒指数的走势也高度相关。 然而经过我们的统计发现,几乎所有的主题热度与相关个股走势均趋于同步性。仅仅依据主题热度这样一个同步指标,我们很难对主题做出择时的判断,因为在某种程度上基于主题热度投资和基于股价本身投资是一样的。对于主题热度,我们更多的是从事件投资、突发新闻、主题炒作后相关股票超涨超跌的现象入手进行分析。具体分析大家可以参考我们后续的专题报告。 4. 在冷门股中寻找投资机会 格雷厄姆认为“冷门股中的投资机会更多"。他的理由是,这些冷门股由数量化专题报告于缺乏市场的关注,价格远远滞后于其统计表现,但是一旦该股票受到关注,结果可能完全相反,公司的业绩将最大限度地反映到股票价格上。同时,《彼得〃林奇的成功投资》中也提到:“如果说有一种股票我避而不买的话,它一定是最热门行业中最热门的股票,这种股票受到大家最广泛的关注,投资者上下班途中在汽车上或在火车上都会听到人们谈论这种股票,一般人往往禁不住这种强大的社会压力就买入了这种股票。” 基于上述理论,我们来探索 A 股中是否存在这样的冷门股、热门股效应。冷门股是指那些较少为人问津、很少被投资者关注并且公司名称少有耳闻的股票。这些股票的一个重要特征是它所对应的网络论坛不活跃,因此网络论坛的活跃度能够直观的反映股票的冷热门程度。具体的操作方法是:我们统计每个股票所属的子论坛下每日新发贴的数量,我们认为那些新发帖量较大的股票属于相对热门的股票,而那些新发帖量较小的股票属于相对冷门的股票。我们仅按照发帖量的数据将所有股票划分为5 组,组 1 是所有股票中发帖量最低的20%,组 5 为所有股票中发帖量最高的 20%,组 2,3,4 为依次递增,然后我们按月进行调仓,每组内等权配置,得到 5 组从 2008 年 6 月至今的各组累积收益率如下: 从图 4 中,我们看出基于论坛中的发帖量数据具有很好的区分度以及单调性;Q1,也就是发帖量最小的 20%的股票组合,具有非常稳定的超额收益;Q5,也就发帖量最大的 20%的股票组合,稳定的跑输基准。这就是说明冷门股以及热门股效应在 A 股中也同样是存在的。 还有一个需要特别注意的细节:到底应该选用多久一段时间内的文本进行计算?我们的研究结果显示,如果选取最近 3 个月至 6 个月的文本数据,则挑选出的相关个股基本偏向一些中规中矩、与主题确定相关的股票;如果选取较短时间内的文本数据,则挑选出的会是一些新近才与主题产生联系、相关性不确定的个股,且这些股票的波动性也非常大。 综上所述,我们认为标的挖掘有以下几个用途:1)新主题出现时,迅速地定位出和这些主题相关的个股;2)对旧主题,能够量化主题和个股之间的相关性,在主题投资时对个股进行精选;3) 实时维护一个与主题相关性最大个股的组合。 6. 年年岁岁花相似 本节主要试图阐明这样一个道理:任何一桩能够引起投资者关注的事件必然会带来超额收益,这部分超额收益来源于投资者关注的溢价。如果这个事件的发生具有周期性,则我们可以基于其过去的表现来确定下次该事件来临时的操作策略,从而获取收益。这里所指的事件定义非常广泛,只要是能够引起投资者关注的,并且是周期性发生的,均可以称为事件。 以“中国国际机器人展览会”为例,该展会是目前国内水平最高、规模最大、专业化程度最高的机器人专业展,目前已经举办了 3 届。2012 年举办的时间为 7 月 3 日,2013 年举办时间为 7 月 2 日,2014 年举办时间为 7 月 9 日。 首先我们仿照主题热度的指标,在论坛的文本数据中去搜寻该博览会被投资者所关注的热度指标,如图 7。 从图 7 中可以看出,在该展览会召开前,已经陆续有投资者在网络论坛提到该展览会,而且大量的提及时间点集中于召开前一个月。这说明该事件是能够吸引大量投资者关注的,而且投资者的关注是在展览会召开前一个月逐渐增多。接下来我们分析三届会议召开前 20 个交易日到召开后 20 个交易日内,机器人主题指数相对于沪深 300 的超额收益的累积情况如图 8 所示。 从图 8 中可以看出,每次在该展览会前 20 个交易日到展览会召开当日均有一定的超额收益,在 2013 年、2014 年的时候有近10%的超额收益,2012 年的时候有 6%左右的超额收益,并且这些超额收益在展览会召开后慢慢消减至 0(2013 年因为其他的利好而导致了一定的偏差)。那么基于这个数据,在 2015 年 7 月 8 日该展览会再次召开之前 20 个交易日,我们可以考虑投资这样一个事件。当然我们也可以根据上一节中介绍的主题相关个股标的挖掘法,来精选机器人主题的个股。 上述例子也阐述了立足于文本数据构造泛事件投资的基本框架,即: 1)确定该事件能否引起投资者关注以及确定具体的关注时段; 2)探索事件发生的历史规律,如影响个股、收益变化等; 3)基于历史规律,确认事件再次来临时的操作策略。 责任编辑:张文慧 |
【免责声明】本文仅代表作者本人观点,与本网站无关。本网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
本网站凡是注明“来源:七禾网”的文章均为七禾网 www.7hcn.com版权所有,相关网站或媒体若要转载须经七禾网同意0571-88212938,并注明出处。若本网站相关内容涉及到其他媒体或公司的版权,请联系0571-88212938,我们将及时调整或删除。
七禾研究中心负责人:刘健伟/翁建平
电话:0571-88212938
Email:57124514@qq.com
七禾科技中心负责人:李贺/相升澳
电话:15068166275
Email:1573338006@qq.com
七禾产业中心负责人:果圆/王婷
电话:18258198313
七禾研究员:唐正璐/李烨
电话:0571-88212938
Email:7hcn@163.com
七禾财富管理中心
电话:13732204374(微信同号)
电话:18657157586(微信同号)
七禾网 | 沈良宏观 | 七禾调研 | 价值投资君 | 七禾网APP安卓&鸿蒙 | 七禾网APP苹果 | 七禾网投顾平台 | 傅海棠自媒体 | 沈良自媒体 |
© 七禾网 浙ICP备09012462号-1 浙公网安备 33010802010119号 增值电信业务经营许可证[浙B2-20110481] 广播电视节目制作经营许可证[浙字第05637号]