当前位置:首页> 理财常识 >自动生成投研报告靠谱吗?AI如何辅助量化交易?-人工智能步入金融领域深度专题报告(第1弹)

自动生成投研报告靠谱吗?AI如何辅助量化交易?-人工智能步入金融领域深度专题报告(第1弹)

2023-05-10 14:56:27



写在前面


关于人工智能如何结合金融的话题,研投菌早就想做一次专门讨论,趁着国庆假日,我们花点时间做一次全面的透视如何?


目前金融机构的主流玩法有四种:1. 投资银行和卖方研究尝试自动报告生成,2. 金融智能搜索;3. 公募、私募基金在通过人工智能辅助量化交易;4. 财富管理公司在探索智能投顾方向。


由于篇幅所限,本文重点讨论自动报告生成和人工智能辅助交易,明日将对后两个话题进行交流。文章或许有些专业,但保证不无聊。



#人工智能与金融结合的思考#


文 | 文因新三板、、上市公司公告  

编辑:对冲研投  转载请注明出处



1
自动生成投研报告靠谱吗?


在投资银行的投行业务与证券研究业务中涉及大量的固定格式的报告撰写工作,如招股说明书中的部分章节,研报,以及投资意向书。这些报告撰写需要大量的投行初级员工进行长时间枯燥繁琐的数据罗列、整理、反复Copy-Paste工作。


目前,自动报告生成主要运用自然语言处理(NLP)中的两种技术:


自然语言理解(NLU):将日常话语消化理解,并转化为机器可后续处理的结构;

自然语言生成(NLG):将由机器拆分好的结构化数据以人们能看懂的自然语句表达出来。


我们可以将这两种技术理解看成对日常对话这一原料的拆分加工和整装成可理解的自然语句——最终产品。


然而真正生成报告还需要利用以上技术完成3个步骤:


1.处理海量异构数据



将投行分析师需要阅读的年报,彭博新闻社的实时新闻以及数据,行业分析报告,以及法律公告等资源进行消化。其中对于文本中的图片和表格需要OCR(光学字符识别)等技术解析。


2.分析数据


这一过程涉及运用知识图谱中常用的知识提取与实体关联将其关键逻辑主干抽出,结合事件地点等因素,将关键信息嵌入预先设计好的报告模板中。


3.文章生成



经过处理海量异构数据与分析数据的过程后,即可生产新闻,券商分析研报,上市招股书,企业年报,定增公告,甚至基金研究员开每日晨会所需的投资建议书也都可以用类似方式生成。用户只需选择符合其需求的模板确定主题与关键信息,以及报告呈现形式,便可生成基本内容。而且投行分析师可以进行校对与人工二次编辑,加入有价值的观点与结论,并提升报告精准度。


自动报告生成已经被广泛的运用到新闻行业中, 。法国公司Yseop可以每秒生产3000页内容,支持英语,法语,德语等多种语言,产品广泛用于银行、电信公司的客户服务部门以及财经新闻网站。



但是一些科技公司已经不仅仅满足于为新闻行业提供自动报告生成的服务。


Narrative Science由西北大学的新闻系和计算机科学系的联合创立,旨在通过给定主题的数据分析,自动生成文章报告。该公司的著名数据分析平台Quill可以分析结构化数据,将人工智能与大数据进行技术融合,理解这些数据的重要性,从而产生简短的文字表述或结构化的报告内容。Quill的主要面向对象为——金融服务提供商。


Narrative Science的CEO Frankel 表示“我们的目标是替代人工做绝大部分基础工作,让机器来处理数据和信息”。




2
人工智能如何辅助量化交易


量化交易从很早开始就运用机器进行辅助工作,分析师通过编写简单函数,设计一些指标,观察数据分布,而这些仅仅把机器当做一个运算器来使用。直到近些年机器学的崛起,数据可以快速海量地进行分析、拟合、预测,人们逐渐把人工智能与量化交易联系得愈发紧密,甚至可以说人工智能的3个子领域(机器学,自然语言处理,知识图谱)贯穿量化交易的始终。


1. 机器学:从数字推测模型



量化交易分析师们对财务、交易数据进行建模,分析其中显著特征,利用回归分析等传统机器学算法预测交易策略。这种方式有两个主要弊端,其一是数据不够丰富,仅限于交易数据,更重要的是它受限于特征的选取与组合(Feature Engineering),模型的好坏取决于分析员对数据的敏感程度。此外一种做法是,模仿专家的行为,选择某一领域的特定专家,复制他们的决策过程,并导入可重复的计算框架。


全球最大的对冲基金桥水联合(Bridgewater Asspcoates)早在2013年就开启一个新的人工智能团队,该团队约有六名员工,由曾经供职IBM并开发了认知计算系统Watson的David Ferrucci领导。据彭博新闻社报道,该团队将设计交易算法,通过历史数据和统计概率预测未来。该程序将随着市场变化而变化,不断适应新的信息,而不是遵循静态指令。而桥水基金的创始人也曾公开表示,其旗下基金持有大量多仓和空仓,投资120种市场,持仓组合高达100多种,并且以人工智能的方式考虑投资组合。



Rebellion Research是一家运用机器学进行全球权益投资的量化资产管理公司,Rebellion Research在2007年推出了第一个纯人工智能(AI)投资基金。该公司的交易系统是基于贝叶斯机器学,结合预测算法,响应新的信息和历史经验从而不断演化,利用人工智能预测股票的波动及其相互关系来创建一个平衡的投资组合风险和预期回报,利用机器的严谨超越人类情感的陷阱,有效地通过自学完成全球44个国家在股票、债券、大宗商品和外汇上的交易。


伦敦的对冲基金机构Castilium由金融领域大佬与计算机科学家一同创建,包括前德意志银行衍生品专家、花旗集团前董事长兼首席执行官和麻省理工的教授。他们采访了大量交易员和基金经理,复制分析师、交易员和风险经理们的推理和决策过程,并将它们纳入算法中。



在量化交易方面的人工智能初创公司有日本的Alpaca,旗下的交易平台Capitalico利用基于图像识别的深度学技术,允许用户很容易地从存档里找到外汇交易图表并帮忙做好分析,这样一来,普通人就能知道明星交易员是如何做交易的,从他们的经验中学并作出更准确的交易。同时Alpaca也推出AlpacaScan作为对美国股票市场实时反映的的K线图工具,抛弃二进制滤波的局限旨在提供给交易员用来识别潜在市场变化趋势的日常必需工具。


坐落在香港的Aidyia致力于用人工智能分析美股市场,依赖于多种AI的混合,包括遗传算法(genetic evolution),概率逻辑(probabilistic logic),系统会分析大盘行情以及宏观经济数据,之后会做出自己的市场预测,并对最好的行动进行表决。与其类似的公司还有Point72 Asset,Renaissance Technologies,Two Sigma。


2. 自然语言处理:把握市场动态



当量化交易分析师发现数字推测模型的局限性后,开始考虑引入新闻,政策,社交网络中的丰富文本并运用自然语言处理技术分析,将非结构化数据结构化处理,并从中探寻影响市场变动的线索。


率先使用自然语言处理技术的人工智能对冲基金的是今年6月份在伦敦新设的对冲基金CommEq。CommEq的投资方法结合了定量模型与自然语言处理(NLP),使计算机能够如人类一样通过推断和逻辑演绎理解不完整和非结构化的信息。


除此之外,也有采用自然语言处理技术的金融科技公司,如由李嘉诚与塔塔通讯投资的Sentient Technologies运用自然语言处理,深度学(Deep Learning)等多种AI技术,进行量化交易模型的建立。




其中最为知名的是号称”取代投行分析师“的投资机器人——Kensho。Kensho是一家致力于量化投资大众化的人工智能公司,旗下有一款产品Warren被称之为金融投资领域的“问答助手Siri”。Kensho结合自然语言搜索,图形化用户界面和云计算,将发生事件关联金融市场,提供研究辅助,智能回答复杂金融投资问题,从而加速交易时间,减少成本,用动态数据与实时信息,及时反映市场动态。


这一技术也被广泛运用于风控与征信。通过爬取个人及企业在其主页、社交媒体等地方的数据,一来可以判断企业或其产品在社会中的影响力,比如观测App下载量,微博中提及产品的次数,在知乎上对其产品的评价;此外将数据结构化后,也可推测投资的风险点。这方面国内的很多互联网贷款,征信公司都在大量使用自然语言处理技术,例如宜信,闪银等。另外一些公司则利用这些技术进行B端潜在客户的搜寻,如Everstring,并将信息出售给其上游公司。


3. 知识图谱:减少事件对预测的干扰


机器学与自然语言处理的技术经常会在一些意外(如“”事件)发生的时候预测失败,例如911、熔断机制和卖空禁令等等。人工智能系统没有遇到过这些情况,无法从历史数据中学到相关模式。这时候如果让人工智能管理资产,就会有很大的风险。


此外,机器学擅长发现数据间的相关性而非因果性。很有名的一个例子是早在1990年,对冲基金First Quadrant发现孟加拉国生产的黄油,加上美国生产的奶酪以及孟加拉国羊的数量与标准普尔500指数自1983年开始的10年时间内均具有99%以上的统计相关性,1993年之后,这种关系莫名其妙的消失了。这就是由于自学的机器无法区分虚假的相关性所导致的,这时候就需要专家设置的知识库(规则)来避免这种虚假相关性的发生。


知识图谱本质上是语义网络,是一种基于图的数据结构,根据专家设计的规则与不同种类的实体连接所组成的关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。就金融领域来说,规则可以是专家对行业的理解,投资的逻辑,风控的把握,关系可以是企业的上下游、合作、竞争对手、子母公司、投资、对标等关系,可以是高管与企业间的任职等关系,也可以是行业间的逻辑关系,实体则是投资机构、投资人、企业等等,把他们知识图谱表示出来,从而进行更深入的知识推理。


目前知识图谱在金融中的应用大多在于风控征信,基于大数据的风控需要把不同来源的数据(结构化,非结构)整合到一起,它可以检测数据当中的不一致性,举例来说,借款人张三和借款人李四填写的是同一个公司电话,但张三填写的公司和李四填写的公司完全不一样,这就成了一个风险点,需要审核人员格外的注意。




最早应用知识图谱在金融领域的Garlik就是这一代表。这家公司2005年成立于英国,核心成员来自南安普顿大学(University of Southampton,是语义网的核心研究机构之一),主要业务是在线个人信息监控。Garlik收集网络和社交媒体上的个人信息,当发生个人信息盗窃时会及时报警。Garlik总计融资2469千万美金后被美国的三大个人信用记录公司之一Experian收购,其技术被用于个人信用记录、信用盗窃的分析。Garlik的核心技术之一是大规模语义数据库,前后开源发布了3store, 4store, 5store等高性能数据库。


除此之外还有Dataminr,这家基于Twitter及其他公开信息的实时风险情报分析公司。致力于从数据爆炸的社交网络提取精简且价值的风险情报与挖掘关键信息,如舆情热点、金融相关的非交易信息、公共机构安全预警、企业安全等,并直接向客户推送。除此之外,Dataminr还加入早期预警系统,并实时推送警报


而以投资关系为例,知识图谱可以将整个股权沿革串起来,方便地展示出哪些PE机构在哪一年进入,进入的价格是多少,是否有对赌条款,这些信息不仅可以判断该机构进入当时的估值,公司未来的发展情况(公司成长的节奏),还可以看清PE机构的投资偏好,投资逻辑是如何变更发展的。


目前知识图谱在工业界还没有形成大规模的应用。即便有部分企业试图往这个方向发展,但很多仍处于调研阶段。我们认为这其中的难点在于如何与特定领域机构建立起一套合作方式,如何将合作变成一种可轻易编程的界面,让领域专家可以通过系统以一种非常简单的方式进行行业逻辑的建模,而他的逻辑可以通过系统实时得到验证,使其进一步更新,只有通过专家与机器反反复复的迭代,形成闭环,才会服务好用户。



全球估值第四高,被称为“下一个独角兽”的公司——Palantir曾推出一个基于知识图谱的金融数据分析平台—Palantir Metropolis,可以整合多源的量化资料,并提供一套方便易用的分析工具来满足复杂的研究需求,其中的组件能够进行复杂搜索,可视化编辑与分析,有非常丰富的人机交互能力。目前Palantir将结构化客户内部数据,关联相关数据,让客户自己创立分析规则整合并优化模型,量化处理数据,从而解决客户的特定需求。


未完,明日话题:金融智能搜索、智能投顾,欢迎转发,欢迎交流。


- END - 


 对冲研投知识库,点击直接查看 
 

【基本功】大宗商品投研方法论 | 期货投研框架思考 | 独立思考 |  股市投研基本功 | 宏观经济入门 | 量化交易入门 |  豆粕期权基础 | 场外期权基础 | 波动率期限结构研究 | 对冲基金商业模式 | 印度经济 | 房价研究| 新三板估值方法 | 美元投资手册 | 如何调研上市公司 | K线图是什么

【品种投研】9月钢厂调研 | 煤炭 | 9月USDA报告 | 黄金 | | 原油 | 天胶 | 白银 | 煤焦钢大会 | 棉花调研 | 炼焦利润 | 传导逻辑 | 农产品价格运行规律-兴业证券 | 原油期货定价机制 | 农产品分析框架-费忠海 | 天胶产业链 |

【量化&交易策略】量化交易策略概览 | Alpha策略构建基础 | 事件驱动策略 | 相对价值策略 |大类资产交易 | 高频交易 | 人工智能 | 市场操纵 | 算法帝国 | 商品跨境套利策略 | 买入波动率策略 | 美国加息后各市场交易策略

【人物】海归交易员 | 研投妹 | 索罗斯 | 西蒙斯 | Steven A. Cohen

【研客Live纪要】郦振华棉花 | 钟智高白银 | 黄劲文鸡蛋 | 刘源黑色 | 权姝文天胶 | 吴文海PTA | 李科白糖瑞茂通动力煤史恒昱棕榈油




友情链接