论文笔记 – A Survey of Event Extraction from Text

可以先看我的 信息抽取入门 作为基础,再看这篇。

1 事件抽取的任务

事件抽取(EE)是从文本中提取事件的关键元素,比如“5W1H”这种。EE 分成 closed-domain 和 open-domain,closed-domain 是给定要抽取的 event type 和 argument role,抽取关键词做分类问题;open-domain 是没有设计好的结构,主要任务就是检验文本里有没有事件,以及对事件聚类,并给每一类一个 event type。

2 事件抽取的数据集

ACE、TAC-KBP、TDT 略

3 基于模式匹配的事件抽取

3.1 手动模式匹配

AutoSlog([1])第一次引入了 Part of Speech (POS)的标注,按照词性的模板动手去匹配,每次新找到一个匹配到词性的模板的,比如“<victim> was murdered”,它就把 murdered 加入到 trigger dictionary 里面,victim 即为对应的 argument。当然,如果能直接匹配到 trigger dict 里面的词,那就直接抽出 trigger,再用词性模板匹配。

PALKA [2] 提出一个事件可以有多个 argument,且如果一句话有多件事,就切成多句话。

手动模式匹配的方法只能针对固定的领域(比如生物、金融等),且需要操作者有专业知识,且花费大量时间精力,且无法标很大的规模。当然,这使得事件抽取的准确率非常高。

3.2 半自动模式匹配

AutoSlog-TS [3] 是 [1] 自己改的。以前不是新发现的加到 trigger dict 里面嘛,现在就直接把新发现的 event pattern 记录下来,以后匹配 event pattern。这样就可以用 event pattern 自动匹配了。

4 基于机器学习的事件抽取

都是有监督学习,都是先 trigger 再 argument。

4.1 机器学习用到的文本特征

文本特征分成三类,即词汇特征、句法特征、语义特征。

词汇特征包括:原单词、全改成小写的单词、词性还原之后的单词、词性标签(POS tag)。

句法特征来自句法依存树,即找到各部分的句法关系。句法特征包括:在 dependency path 上的标签(主谓宾等)、dependency word 及其词汇特征、词在句法树的深度。

语义特征包括:同义词及其词汇特征、event type、entity type。

以上特征一开始是基于词袋模型的独热码。机器学习的目标,就是提取一句话最关键的特征,并且把这些特征整合成一个高维特征,来进行后续的分类。

4.2 Pipeline 方法

4.2.1 句子级的事件提取

[4] 是 trigger 和 argument 任务各自一个分类器。前一个叫做 TiMBL,用最近邻学习 trigger 识别模型,输入的包括了 lexical features, WordNet features, context features, dependency features and related entity features;后一个叫做 MegaM,用最大熵学习 argument 识别,输入包括 the features of trigger word, event type, entity mention, entity type, and dependency path between trigger word and entity。(这些 feature 都可以参考!)

还有方法结合了模式匹配和机器学习。[5] 先用模式匹配,找出几个潜在的 event type,再把这些潜在的 event type 和其他特征编码输入机器学习模型,帮助 trigger 识别。[6] 构建了一个 trigger-argument 的关系库,帮助 argument type 识别。

中文需要先分词得到 token,但是可能存在 trigger 被分成 多个 token,或者只是 token 的一部分。为了解决这个问题,[7] 先在句子里去找各种 event type 的同义词,作为 trigger;[8] 同时使用 word 和 character 特征输入,其中 character-level 特征包括这个字符和它的邻居;[9] 就暴力了:如果一个字符是 trigger,那么所有包含这个字符的词也都是 trigger,trigger 里面的每一个字符,都将和它的前后字符组合,成为可能的 trigger。

4.2.2 文章级的事件提取

如果我们是在一个大的语境(比如一篇文章,或多篇文章)的一句话做事件提取,那我们可以利用文章级的特征,来增加准确率。文章级的特征有两类用法。一类是用全局的(文章级)特征构造辅助模型,辅助之前的局部的(句子级)模型;另一类是把文章级特征加入到句子级模型的输入里。下面分别介绍。

辅助模型: [10] 认为,同一文章、不同句子之间的 argument 会有一致性,包括词义的一致性和 argument role 的一致性。为了用上这种一致性,他们把相似主题的 document 分类,每类都建立 trigger sense 和 argument role 的推断规则。[11] 把这种方法推广到了不同文章之间。[12] 提出了两种全局信息,即事件与事件的关系,和主题与事件的关系,用逻辑软概率模型 + 全局信息,处理 local 的事件提取结果。

特征输入: [13] 认为,相似的 entity,会在相似的事件里扮演相似的角色。因此,他们定义了包括 entity subtype、entity subtype 之间的共现概率、entity subtype 的 argument 等特征,来训练句子级别的 SVM 分类器。[14] 利用主题模型,将文章的主题作为特征输入分类器。

4.3 Joint 方法

上述的 pipeline 方法 ① 会有误差积累 ② 后一个分类器结果无法微调前一个分类器 ③ 两个子任务之间的关系没有用上。Joint 方法也分成两类:一类是引入子任务之间的关系,让各部分模型可以共同优化;另一类是真正的 joint 方法,一口气提取 trigger 和 argument。

子任务关系:[15] 通过整数线性规划,联系了基于 CRF 和基于最大熵的两个分类器,使之联合优化。

真正的 joint:[16] 把事件抽取当做 structured learning 问题,用 structured perceptron model 解决。具体来讲,the outcome of the entire sentence can be considered as a graph in which trigger or argument is represented as node, and the argument role is represented as a typed edge from a trigger to its argument. They applied the beam-search to perform inexact decoding on the graph to capture the dependencies between triggers and arguments. (没看懂,TODO)

5 基于深度学习的事件抽取

上面的机器学习方法,最重要的环节还是特征工程,这还是有领域限制、专业人员才能标特征等等。另外,特征大多是独热码,稀疏数据对模型训练有很大影响。深度神经网络就在隐层中,把底层的输入转换成了更抽象的特征表示,就能解决上述问题。一般过程是构建一个神经网络,将词嵌入作为输入并输出每个词的分类结果,即,对一个词是否是 trigger 进行分类,如果是,则对其 argument role 分类。

5.1 基于卷积神经网络

[17] 是很朴素的想法,即输入词及其邻居的 embedding,卷积、池化,得到特征表示,直接分类。但是一句话不一定只有一件事呀![18] 就采用了动态多池化,把句子用 trigger 分成多个部分,分别最大池化(这个我有写读后感,详见 DMCNN)。上面俩都是做 localize 的卷积,[19] 是把句子里任意不连续的 k 个词,都卷积-池化,然后挑选最重要的。

CNN 的方法也有一些改进: [20] 设计了一种语义增强的深度学习模型,称为 Dual-CNN,该模型在典型的 CNN 中添加了语义层,以捕获上下文信息。[21] 提出了一个并行多池化卷积神经网络(PMCNN),它可以捕获句子的组合语义特征,以进行医学事件提取。PMCNN 还利用基于依存关系的 embedding 来进行单词的语义和句法表示,并采用整流线性单元作为非线性函数。[22] 用 bootstrapping 方法建立了全局上下文的表示,并将表示集成到 CNN 中进行事件提取。

5.2 基于循环神经网络

CNN ① 多是 pipeline 方法,会误差积累 ② 输入的是词向量的拼接,并不能找到距离比较远的词之间的关系,从而用上整句话的信息

[23] 使用 Bi-GRU,分成编码阶段和预测阶段,利用了 trigger subtype 之间、argument roles 之间、trigger subtype 和 argument roles 之间的依存关系(这个我也有写读后感,详见 JRNN)。

[24] 使用了句法结构,来增强 RNN,即把一些有关系词对应的 RNN 单元连上。[25] 就更直接了,直接用 dependency tree 作为 Bi-LSTM 的结构。[26] 更进一步,对于每一个词,都有一个以它为根的 dependency tree 的 LSTM 结构(叫做 Tree-LSTM),而且还是中文的事件抽取。[27] 把外部的实体知识引入 Tree-LSTM,做医学的实体抽取。

RNN 还能做文章级的事件抽取。[28] 是在 Bi-LSTM 的基础上,输入里加入了一个“概率向量”,表示当前文档。

上面的 RNN 都是 LSTM 或 GRU,有门控单元结构,但是这非常耗时。[29] 的 SRU 避免了当前单元和上一单元的乘法,让计算量大大减小。[30] 就构建了 Bi-SRU,一个用来学习词汇级的表示,另一个用来学习字符级的表示。

5.3 基于图神经网络

GNN 是图结构的神经元组织到一起的,是非欧空间的结构。用 GNN 做事件抽取,核心问题是要先给文本中的词构建出图结构。

[31] 采用了一种语义分析技术,称为抽象意义表示(AMR),可以规范文本中的许多词汇和句法变体,并输出有向无环图,以捕获文本“谁对谁做了什么”的概念。另外,他们认为事件结构是 AMR 图的子图,并将事件提取任务转换为子图识别问题。他们训练了图 LSTM 模型,以识别用于生物医学事件提取的事件子图。

另外的方法是把 dependency tree 变做图。[32] 把 dependency tree 变成双向的,再加上每个词到自己的边,用这个图去进行 localized 卷积操作,就能不仅提取上下文特征,还能有长距离的、基于依存关系的词语特征。

5.4 多种神经网络混合

建立这种混合模型的常用方法,是使用不同的神经网络来学习不同类型的单词表示。 例如,[33] 和 [34] 都首先在图卷积运算之前,用 Bi-LSTM 来获取初始单词表示。

也有把 CNN 和 RNN 融合的。比如 [35] 就直接把 CNN 和 Bi-LSTM 的结果拼一起,再分类(这个我也有写读后感,详见 这里)。[36] 也是 CNN 和 Bi-LSTM,只不过这里的 Bi-LSTM 的序列输出结果被直接拼接,作为文章的特征,再把 CNN 得到的词的特征拼到一起,再分类。

另一种就是 GAN,即两个神经网络互相对抗,一个生成,一个判别真假。下面几个都是用 RNN 作为生成和对抗网络。在训练过程中,[37] 提出用双通道自我调节学习策略来调节学习过程。在自我调节过程中,对生成网络进行训练以产生最虚假的特征。而带有记忆抑制器的判别网络,经过训练可以消除虚假特征。[38] 提出了一种对抗模仿策略,将知识提炼模块纳入特征编码过程。在他们的混合模型中,使用了分别为 Bi-GRU 的教师编码器和学生编码器。教师编码器通过 gold annotations(我也不知道是啥)进行训练,而学生编码器则通过对抗式模仿学习,通过使其输出与教师编码器的输出之间的距离最小化来进行训练。[39] 使用强化学习(RL)策略在训练过程中更新了 Q 表,其中 Q 表记录了根据系统状态和动作计算出的奖励值。(这段我都不懂,翻译的)

5.5 Attention 机制

Attention 机制是一种区分机制,可根据其对给定任务的重要性,引导神经模型对输入的每个成分进行不平等的对待,且这些权重从模型训练过程中自学而来。

应该给谁更多注意力呢?[40] 认为,trigger 的 argument 应比其他词受到更多关注。为此,他们首先构造了 gold attention vectors,表示 argument 及其上下文的编码。此外,他们为每个单词设计了两个上下文关注向量:一个是前后单词;另一个是前后 entity,两个拼一起,最小化事件检测和注意差异的加权损失。

在词级注意力机制中,来自句法结构里面的 entity 关系也可以用来训练注意力 [41,42]。他的想法就是,句法依存关系可以让两个很远的词之产生关系。[43] 是中文的,字符级注意机制。

还有人把词级和句子级的注意力融合,以增强在有多个句子的文档里的事件提取。[44] 认为,在文章里,每句话即使是不同的 event type,也都和文章主题相关。他们提出一种基于 hierarchical and supervised attention mechanism 的 DEEB-RNN(以后看),用词汇级的注意力提取 trigger,句子级注意力 找 event(?)。这样就得到两个 gold attention vectors,一个是基于 trigger 的词汇级 attention,另一个是如果有 trigger,那就是句子级的 attention?[45] 提出了 HBT-NGMA 模型,是一个 gated 多层注意力机制,抽取句子之间的和句子里面的信息。

除了利用单词和句子之外,还有人整合了额外的知识,例如使用多语言知识 [46] 或先验 trigger 语料库 [47]。[46] 检查了 ACE 数据集里标注的数据,发现 57% 的 trigger 都是模糊的,就认为多语言可以解决这个模糊。他们提出了 gated multilingual attention,包括 mono-lingual context attention 和 gated cross-lingual attention(这都什么玩意?哭了)后者就是用先用机器翻译,然后再咋咋的。[47] 就把先验 trigger 和 attention 整合。(attention 这一大块,每个文章都得看啊!)

6 基于半监督学习的事件抽取

以上方法都是有监督的方法,那当然是数据越多越好,然事与愿违,数据难得。一种方法就是,先用已有的标签数据,再生成一堆数据,用混合数据训练我们的模型。好多论文给这个半监督起不少名字,比如 semi-supervision、weak supervision、distant supervision 等等,都是这种。

6.1 同时扩充数据、训练模型

有时候,数据是可以重复使用的,bootstrapping 方法就是用替换的数据训练模型。过程就是先用小数据集训练分类器,然后用它分类没标签的数据。另外还有个分类器,用来输出分类的新数据的置信度,把高置信度的生成数据作为下一轮训练的样本。

那么关键问题就是,怎么判断新数据的分类置信度。[48] 提出,只用高置信度的 trigger 和 argument role 组合生成的数据,最为高置信度的数据。[49] 认为,如果一个有标签数据集里 作为 trigger 的单词,在没标签的句子里出现了,那么很可能这两句讲的是同一件事(我感觉明显不靠谱),于是他们就提出了一个对抗训练的过程,把不是的过滤掉,把是的作为新数据留下来。

还有人提出了基于迁移学习的方法,从有标注的 event type 数据集迁移到新 event type。[50] 提出了一个 CNN,分成两个阶段:先用有标注数据集训练 CNN,作为初始参数,然后在这个基础上,用一些新的 event type 的数据训练,就能得到最终的模型,又能识别原有的 event type,又能识别新的 event type(凭什么?)。

[51] 提出一个零样本学习方法。想识别全新的 event type,只需要对新的 event type 做个定义(包括 event type name、argument role name)。具体来讲,他们用旧的 event 的各种特征,训练一个 CNN,得到事件的高维特征表示,再把这个 CNN 迁移到新的 event type 上。

6.2 利用知识库扩充数据

[52] 认为,如果两个句子,有相同的结构、相同的语言的部分,那这两句说的是一件事。于是就用概率软逻辑模型做这个推断,在新句子里找相同的(大约是这个意思?没太懂)。[53] 认为,只要 argument 一样,就是同一件事了,从 CVT 表找 argument 来扩充数据(这个是我们组做的,我的读后感在这里)。当然,还有利用其他各种各样知识库扩充数据的,包括 FrameNet、Freebase、Wikipedia、WordNet 等等。

6.3 利用多种语言的数据扩充数据

[54] 直接把中文谷歌翻译成英文,两种语言一起输入(黑人问号脸???)。不用翻译的方法,就是用不同语言来 bootstrapping,[55] 是两个单语言的自举系统,识别出事件之后,再进行语言间的转换。

7 基于无监督学习的事件抽取

无监督的事件抽取主要用于开放领域的任务,包括找 trigger 和 argument,以及对事件聚类。

7.1 mention 的检测

Event mention 由描述事件的关键词组成。检测任务包括检测 mention,以及在其他文章里找类似的 mention。这里并不需要对 event type 或者 argument role 做识别(因为数据没标注,这些 type 也没有提前给定嘛)。TDT 任务是有几个主题的很多文章,让判断一篇文章属哪个主题。

这就和聚类非常像了,朴素的方法就是把文章转换成高维特征向量,在特征空间的位置关系就是语义之间的相似关系。比如,[56] 挑选 tf-idf 分数最高的,也就是最重要的词,作为文章的关键词,把这些关键词的 embedding 拼起来就是 文章的 embedding。[57] 就是词袋模型得表示,再层次聚类。[58,59] 还把时间作为关键信息引入。

7.2 事件抽取 + 聚类

最简单的方法就是把动词当做 trigger,dependency tree 上连着的就是 argument。这些方法感觉跟机器学习都没啥关系,就不说了。

8 总结

五六两部分的文章,得选择性精读啊!

9 引用和拓展阅读

[1] E. Riloff et al., “Automatically constructing a dictionary for information extraction tasks,” in Proceedings of the eleventh national conference on Artificial intelligence, 1993, pp. 2–1.

[2] J.-T. Kim and D. I. Moldovan, “Acquisition of linguistic patterns for knowledge-based information extraction,” IEEE transactions on knowledge and data engineering, vol. 7, no. 5, pp. 713–724, 1995.

[3] E. Riloff and J. Shoen, “Automatically acquiring conceptual patterns without an annotated corpus,” in Third Workshop on Very Large Corpora, 1995.

[4] D. Ahn, “The stages of event extraction,” in Proceedings of the Workshop on Annotating and Reasoning about Time and Events, 2006, pp. 1–8.

[5] A. Meyers, M. Kosaka, S. Sekine, R. Grishman, and S. Zhao, “Parsing and glarfing,” in Proceedings of RANLP – 2001, Recent Advances in Natural Language Processing, 2001.

[6] X. Q. Pham, M. Q. Le, and B. Q. Ho, “A hybrid approach for biomedical event extraction,” in Proceedings of the BioNLP Shared Task 2013 Workshop, 2013, pp. 121–124.

[7] Y. yan Zhao, B. Qin, W. xiang Che, and T. Liu, “Research on chinese event extraction,” Journal of Chinese Information Processing, vol. 22, no. 1, pp. 3–8, 2008.

[8] Z. Chen and H. Ji, “Language specific issue and feature exploration in chinese event extraction,” in Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, 2009, pp. 209–212.

[9] P.Li,G.Zhou,Q.Zhu,andL.Hou,“Employing compositional semantics and discourse consistency in chinese event extraction,” in Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012, pp. 1006–1016.

[10] H. Ji and R. Grishman, “Refining event extraction through cross-document inference,” in Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, 2008, pp. 254–262.

[11] S. Liao and R. Grishman, “Using document level cross-event inference to improve event extraction,” in Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 2010, pp. 789–797.

[12] S. Liu, K. Liu, S. He, and J. Zhao, “A probabilistic soft logic based approach to exploiting latent and global information in event classification,” in Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, 2016, pp. 2993–2999.

[13] Y. Hong, J. Zhang, B. Ma, J. Yao, G. Zhou, and Q. Zhu, “Using cross-entity inference to improve event extraction,” in Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, 2011, pp. 1127–1136.

[14] S. Liao and R. Grishman, “Acquiring topic features to improve event extraction: in pre-selected and balanced collections,” in Recent Advances in Natural Language Processing, 2011, pp. 9–16.

[15] P. Li, Q. Zhu, H. Diao, and G. Zhou, “Joint modeling of trigger identification and event type determination in chinese event extraction,” in Proceedings of COLING 2012, the 24th International Conference on Computational Linguistics: Technical Papers, 2012, pp. 1635–1652.

[16] Q. Li, H. Ji, and L. Huang, “Joint event extraction via structured prediction with global features,” in Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, 2013, pp. 73–82.

[17] T. H. Nguyen and R. Grishman, “Event detection and domain adaptation with convolutional neural networks,” in Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, 2015, pp. 365–371.

[18] Y. Chen, L. Xu, K. Liu, D. Zeng, and J. Zhao, “Event extraction via dynamic multi-pooling convolutional neural networks,” in Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, 2015, pp. 167–176.

[19] T. H. Nguyen and R. Grishman, “Modeling skip-grams for event detection with convolutional neural networks,” in Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, 2016, pp. 886–891.

[20] G. Burel, H. Saif, M. Fernandez, and H. Alani, “On semantics and deep learning for event detection in crisis situations,” in Workshop on Semantic Deep Learning (SemDeep), at ESWC 2017, 2017.

[21] L. Li, Y. Liu, and M. Qin, “Extracting biomedical events with parallel multi-pooling convolutional neural networks,” IEEE/ACM transactions on computational biology and bioinformatics, no. 1, pp. 1–1, 2018.

[22] D. Kodelja, R. Besançon, and O. Ferret, “Exploiting a more global context for event detection through bootstrapping,” in European Conference on Information Retrieval, 2019, pp. 763–770.

[23] T. H. Nguyen, K. Cho, and R. Grishman, “Joint event extraction via recurrent neural networks,” in Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016, pp. 300–309.

[24] Y. Chen, S. Liu, S. He, K. Liu, and J. Zhao, “Event extraction via bidirectional long short-term memory tensor neural networks,” in Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data, 2016, pp. 190–203.

[25] K. S. Tai, R. Socher, and C. D. Manning, “Improved semantic representation from tree-structured long short-term memory networks,” in Proceedings of ACL, 2015, pp. 1556–1566.

[26] W. Zhang, X. Ding, and T. Liu, “Learning target-dependent sentence representations for chinese event detection,” in China Conference on Information Retrieval, 2018, pp. 251–262.

[27] D. Li, L. Huang, H. Ji, and J. Han, “Biomedical event extraction based on knowledge-driven tree-lstm,” in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2019, pp. 1421–1430.

[28] S. Duan, R. He, and W. Zhao, “Exploiting document level information to improve event detection via recurrent neural networks,” in Proceedings of the 8th International Joint Conference on Natural Language Processing, 2017, pp. 352–361.

[29] T. Lei, Y. Zhang, S. I. Wang, H. Dai, and Y. Artzi, “Simple recurrent units for highly parallelizable recurrence,” arXiv 1709.02755, 2017.

[30] Y. Zhang, G. Xu, Y. Wang, X. Liang, L. Wang, and T. Huang, “Empower event detection with bi-directional neural language model,” Knowledge-Based Systems (Elsevier), vol. 167, pp. 87–97, 2019.

[31] S. Rao, D. Marcu, K. Knight, and H. D. III, “Biomedical event extraction using abstract meaning representation,” in BioNLP 2017, 2017, pp. 126– 135.

[32] T. N. Kipf and M. Welling, “Semi-supervised classification with graph convolutional networks,” in ICLR, 2017.

[33] X. Liu, Z. Luo, and H. Huang, “Jointly multiple events extraction via attention-based graph information aggregation,” in Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, 2018, pp. 1247–1256.

[34] T. H. Nguyen and R. Grishman, “Graph convolutional networks with argument-aware pooling for event detection,” in Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, 2018, pp. 5900–5907.

[35] Ying Zeng, Honghui Yang, Yansong Feng, Zheng Wang, Dongyan Zhao, “A Convolution BiLSTM Neural Network Model for Chinese Event Extraction”, NLPCC 2016

[36] Y. Liu, Q. Li, X. Liu, and L. Si, “Document information assisted event trigger detection,” in 2018 IEEE International Conference on Big Data, 2018, pp. 5383–5385.

[37] Y. Hong, W. Zhou, J. Zhang, G. Zhou, and Q. Zhu, “Self-regulation: Employing a generative adversarial network to improve event detection,” in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, 2018, pp. 515–526.

[38] J. Liu, Y. Chen, and K. Liu, “Exploiting the ground-truth: An adversarial imitation based knowledge distillation approach for event detection,” in Proceedings of the Thirty-Third AAAI Conference on Artificial Intelli- gence, vol. 33, 2019, pp. 6754–6761.

[39] T. Zhang, H. Ji, and A. Sil, “Joint entity and event extraction with generative adversarial imitation learning,” Data Intelligence, vol. 1, no. 2, pp. 99–120, 2019.

[40] S. Liu, Y. Chen, K. Liu, and J. Zhao, “Exploiting argument information to improve event detection via supervised attention mechanisms,” in Proceedings of the 55th Annual Meeting of the Association for Com- putational Linguistics, 2017, pp. 1789–1798.

[41] W. Orr, P. Tadepalli, and X. Fern, “Event detection with neural networks: A rigorous empirical evaluation,” in Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, 2018, pp. 999– 1004.

[42] J. Zhang, W. Zhou, Y. Hong, J. Yao, and M. Zhang, “Using entity relation to improve event detection via attention mechanism,” in CCF International Conference on Natural Language Processing and Chinese Computing, 2018, pp. 171–183.

[43] Y. Wu and J. Zhang, “Chinese event extraction based on attention and semantic features: A bidirectional circular neural network,” Future Internet, vol. 10, no. 10, p. 95, 2018.

[44] Y. Zhao, X. Jin, Y. Wang, and X. Cheng, “Document embedding enhanced event detection with hierarchical and supervised attention,” in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, 2018, pp. 414–419.

[45] Y. Chen, H. Yang, K. Liu, J. Zhao, and Y. Jia, “Collective event detection via a hierarchical and bias tagging networks with gated multi-level attention mechanisms,” in Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, 2018, pp. 1267–1276.

[46] J. Liu, Y. Chen, K. Liu, and J. Zhao, “Event detection via gated multilin- gual attention mechanism,” in Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, 2018, pp. 4865–4872.

[47] Y. Li, C. Li, W. Xu, and J. Li, “Prior knowledge integrated with self- attention for event detection,” in China Conference on Information Re- trieval, 2018, pp. 263–273.

[48] S. Liao and R. Grishman, “Can document selection help semi-supervised learning? A case study on event extraction,” in Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, 2011, pp. 260–265.

[49] X. Wang, X. Han, Z. Liu, M. Sun, and P. Li, “Adversarial training for weakly supervised event detection,” in Proceedings of the 2019 Conference of the North American Chapter of the Association for Com- putational Linguistics: Human Language Technologies, 2019, pp. 998– 1008.

[50] T. H. Nguyen, L. Fu, K. Cho, and R. Grishman, “A two-stage approach for extending event detection to new types via neural networks,” in Proceedings of the 1st Workshop on Representation Learning for NLP, 2016, pp. 158–165.

[51] L. Huang, H. Ji, K. Cho, I. Dagan, S. Riedel, and C. Voss, “Zero-shot transfer learning for event extraction,” in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, 2018, pp. 2160–2170.

[52] S. Liu, Y. Chen, S. He, K. Liu, and J. Zhao, “Leveraging framenet to improve automatic event detection,” in Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 2016, pp. 2134–2143.

[53] Y.Zeng, Y.Feng, R.Ma, Z.Wang, R.Yan, C.Shi, and D.Zhao, “Scale up event extraction learning via automatic training data generation,” in Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, 2018, pp. 6045–6052.

[54] Z. Zhu, S. Li, G. Zhou, and R. Xia, “Bilingual event extraction: a case study on trigger type determination,” in Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 2014, pp. 842–847.

[55] Z. Chen and H. Ji, “Can one language bootstrap the other: a case study on event extraction,” in Proceedings of the NAACL HLT 2009 Workshop on Semi-Supervised Learning for Natural Language Processing, 2009, pp. 66–74.

[56] R. Nallapati, A. Feng, F. Peng, and J. Allan, “Event threading within news topics,” in Proceedings of the 13th ACM International Conference on Information and Knowledge Management, 2004, pp. 446–453.

[57] M. Naughton, N. Kushmerick, and J. Carthy, “Event extraction from heterogeneous news sources,” in proceedings of the AAAI workshop event extraction and synthesis, 2006, pp. 1–6.

[58] S. Ribeiro, O. Ferret, and X. Tannier, “Unsupervised event clustering and aggregation from newswire and web articles,” in Proceedings of the 2017 EMNLP Workshop: Natural Language Processing meets Journalism, 2017, pp. 62–67.

[59] S. Yu and B. Wu, “Exploiting structured news information to improve event detection via dual-level clustering,” in IEEE Third International Conference on Data Science in Cyberspace, 2018, pp. 873–880.

4 thoughts on “论文笔记 – A Survey of Event Extraction from Text”

Leave a Comment

电子邮件地址不会被公开。