首期全国计算语言学讲习班8月底开讲


2004-08-12 23:39:12    通知    doubtfire


热忱欢迎参加“首期全国计算语言学讲习班”!

由中国中文信息学会计算语言学专业委员会发起并主办的“首期全国计算语言学讲习班”将于2004年8月29日—30日在北京语言文化大学举行(紧接在2004年8月26日—28日于北京语言文化大学举行的“第二届学生计算语言学研讨会”http://clip.blcu.edu.cn/swcl2004/index.html之后)。该讲习班区别于一般学术报告或讲座的最大特点是:将邀请在计算语言学研究领域有一定学术影响同时一线“实战”经验丰富的年轻学者,精心选择若干能够反映当前研究或技术热点的题目,进行强度比较大的深入讲解。凡讲理论和算法问题,务求透彻、严密、理论联系实际,凡讲具体应用问题,务求细致、生动、立竿见影。完成全部课程(tutorial)者,将获得中国中文信息学会计算语言学专业委员会颁发的结业证书。

  本期讲习班的授课学者及讲授内容为:

  (1)微软亚洲研究院研究员李航博士“统计机器学习”

  (2)厦门大学计算机系教授史晓东博士“统计机器翻译系统的快速构造”

  (3)北京语言大学语言信息处理研究所副教授荀恩东博士“Perl语言与自然语言处理”

  热忱欢迎任何对自然语言处理感兴趣的人士参加!

  感兴趣者,请填写“首期全国计算语言学讲习班报名表”,立即用Email发送给刘非凡博士:ffliu@nlpr.ia.ac.cn;并将听课费汇至:北京市清华大学计算机系邮政编码100084,陈群秀教授收。联系电话:13501241296(“首期全国计算语言学讲习班报名表”,也可邮寄至陈群秀教授处)。未事先报名及未交听课费者,不能保证一定有席位及相应的授课资料。

  听课费标准:学生或者正式注册参加“第二届学生计算语言学研讨会”的人员每人300元(需在注册时出示学生证或相关注册证明)。其他身份的人员:每人400元。听课费包括两天课堂听课和相应的授课资料,以及两顿午餐(盒饭)。其余食宿等一律自理。

  2004年8月28日下午于北京语言文化大学注册(具体地点待通知)。听课费的发票将在注册时返回。

  任何相关问题,请联系刘非凡博士:ffliu@nlpr.ia.ac.cn

  

中国中文信息学会计算语言学专业委员会

  2004年8月10日  

附件一 课程内容及讲者简介

课程一:Tutorial on Statistical Machine Learning

讲者:微软亚洲研究院研究员李航博士

[课程简介](中文授课。授课时间:半天×2)

  It is not exaggerated to say that nowadays statistical learning approaches have become the main stream of natural language processing. For the students who wish to study and work on natural language, statistical machine learning is no doubt one of the most fundamental areas they need to master.

In this tutorial, I will introduce several statistical machine learning methodologies which are widely used in natural language processing and other related fields. First, I will give an overview on statistical machine learning, and next I will explain in details about EM Algorithm, MDL Principle, Maximum Entropy Estimation, and Hyper Plane Classifier (Perceptron and SVM). These methodologies were carefully selected for this tutorial, because they are conceptually representative, theoretically important, and practically useful.

For example, for EM algorithm, I will first introduce Maximum Likelihood Estimation. I will give an information-theoretical justification on why maximizing likelihood is desirable in statistics. I will then introduce the basic idea of EM, and prove the convergence of it. Finally I will introduce under what kinds of circumstances in natural language processing, we can employ EM. I will give two examples: one for machine translation, and the other for word clustering. The other methodologies will be introduced in similar ways.

The targeted participants of the tutorial are students with majors in natural language processing, information retrieval, artificial intelligence, etc. I assume that they have certain knowledge on probability theory, statistics, information theory, and natural language processing. It does not matter if this is not the case. I will try to make my presentation as easily understandable as possible, while managing to meet different needs from students at different levels. I hope that through participation of the tutorial, the students can gain a lot of skills in machine learning and can use it in their own research.

[关于讲者]

  李航 1988年获日本京都大学电气工程学士学位,1990年获京都大学计算机科学硕士学位,1998年获日本东京大学计算机科学博士学位。1990年至2001年任职于日本NEC公司中央研究所,2001年至今任职于微软亚洲研究院,现任研究员,项目主持人,西安交通大学客座教授。Journal of Computer Science and Technology, Computational Linguistics and Chinese Language Processing编委,ACL04, COLING04, IJCNLP04, EMNLP04, CoNLL04, IJCAI05程序委员会委员。研究方向包括统计学习、自然语言处理、信息检索及数据挖掘。他一直活跃在自然语言处理及相关领域,并在重要的国际学术杂志(如Computational Linguistics)和国际学术会议上发表过一系列论文。在NEC任职期间,他从事的文本数据挖掘研究的成果成功地转换为NEC的产品。现在微软继续从事文本数据挖掘、信息抽取等方面的研究与开发。

  个人网页:http://www.research.microsoft.com/users/hangli/

课程二:统计机器翻译系统的快速构造

讲者:厦门大学计算机系教授史晓东博士

[课程简介](授课时间:半天×1)

  涉及统计机器翻译系统的基本理论和快速构造。具体包括以下内容:IBM的统计机器翻译模型1-3;模型的训练以及词对齐程序的实现;一个快速的动态规划解码器;汉英统计机器翻译的特点以及具体解决策略;统计机器翻译系统展望。

着重讲述构造一个具体的统计机器翻译系统时的实际问题,对于理论问题只是点到而止。通过本课程,学生今后将能自己构造一个简单的统计机器翻译系统,并初步了解机器翻译系统的国际发展趋势。

[关于讲者]

史晓东 国防科技大学博士毕业。自1988年起开始英汉机器翻译的研究。1994年他开发的Matrix英汉机器翻译系统,在国家863-306主题专家组组织的智能接口评测获得第二名。1995年,Matrix 系统参加了Intel公司与中国软件行业协会举办的第一届中国应用软件大奖赛,获二等奖,进入了加拿大市场,并在当年863-306主题的第二次评测中获得第一名。1998年,Matrix 1.0及他新开发的Light 1.0 Beta 3囊括863-306英汉机器翻译评测前两名。1999年,桑夏公司以他为主开发的英汉机器翻译技术作价2000万元,合资成立“海南桑夏环球网络有限公司”,推出了国内第一家免费网页翻译网站“看世界”,致力于解决华人上网的语言障碍,开启了国内网络翻译的先河。同年,他在北京创立“桑夏自然语言处理研究院”,进行新一代多语种网络机器翻译系统的研究。2001年始,任联合国大学UNL中心中国语言中心副主任。2002年加盟厦门大学计算机科学系,成为该系最年轻的教授之一。多次获得863资助。是国内不可多得的集语言、算法、程序设计诸方面能力的高手。

  个人网页:http://www.cs.xmu.edu.cn/introduce/teachers/mandel.htm

课程三:Perl语言与自然语言处理

讲者:北京语言大学语言信息处理研究所副教授荀恩东博士

[课程简介] (授课时间:半天×1)

  Perl语言是一种脚本语言,由于具有强大的文本处理能力,语法简洁,功能强大,所以特别适合自然语言处理研究中的资源加工和编写试验系统。随着Perl的发展,在网络上可以获取多种应用模块,应用这些模块可以大大缩短编程时间。Perl在国外自然语言处理同行中得到了广泛应用,成为软件研发的得力工具。

  本课程旨在向大家推荐Perl语言。将结合自然语言处理中一些常用问题,给出Perl的解决实例,通过实例学习Perl语言。主要内容包括:Perl语言简介;从文本中生成词表和词频统计;实现汉语分词功能;基于HMM的词性标注;在系统研发中应用Perl;Perl的功能模块(下载Html、解析Html、数据库应用、CGI应用、Google API、Web Crawler、Win32调用)。

[关于讲者]

  荀恩东 1999年获哈尔滨工业大学计算机应用与科学系博士学位。1999年~2001年任微软中国研究院副研究员。2001年~2003年通过“香港引入优秀人才计划”,在香港科技大学工作。2003年起任北京语言大学计算机系副教授。主要研究方向为机器翻译、句法分析、信息检索、语音合成、语音识别。在国内外发表十余篇学术论文,主持或参与开发了机器翻译、句法分析、信息检索、语音合成和语音识别等多种实用系统。

  个人网页:http://clip.blcu.edu.cn/shizililiang/xunendong.htm

附件二 首期全国计算语言学讲习班报名表

本人报名参加“首期全国计算语言学讲习班”。

姓名:

性别:

身份(本科生、硕士生、博士生、教师或其他)

学习或工作单位:

是否正式注册参加了“第二届学生计算语言学研讨会”:

联系地址:

邮政编码:

Email:

电话:

报名日期:


   阅读 4723  


返回





北京大学中文系   |  北京大学中文系图书馆   |  北京大学计算语言所   |  北京大学中文系应用语言学专业
地址:北京大学校内老化学楼二层  |  通信地址:北京大学中国语言学研究中心  |  邮编:100871
电子邮箱:hyyjzx@pku.edu.cn  |  固定电话:86-10-62761276
 © CCL of Peking University