自然语言处理 —— 基础入门 📅 发布时间:2026/7/5 12:47:45 👁️ 浏览次数: 摘要本文介绍了自然语言处理的基础知识重点阐述了语言的构成要素和语法范畴。语言由音系学、形态学、句法学、语义学和语用学五个相互关联的部分组成。语法范畴包括数、性、人称、格、级、定指/不定指、时态、体、语气和一致关系等基本模块。文章还对比了英语书面语和口语的语法差异指出口语中存在言语不流畅、修正和词汇片段等特征。这些语言学基础知识为自然语言处理研究提供了理论框架。目录自然语言处理 —— 基础入门自然语言语法描述性语法规定性语法语言的构成要素音系学音位形态学词位句法学语义学语用学语法范畴数性人称格级定指与不定指时态体语气一致关系口语句法学言语不流畅与修正话语重启词汇片段自然语言处理 —— 基础入门自然语言语法在语言学中语言是一系列任意的语音符号集合。我们可以认为语言兼具创造性、规则性、先天性与普遍性同时也是人类独有的产物。不同的人对语言本质的理解存在差异人们对语言本质也有着诸多误解因此理解 “语法” 这一含义模糊的术语就显得尤为重要。在语言学中语法可被定义为语言运行所遵循的规则或准则。从广义上语法可分为两类描述性语法语言学家和语法学家对使用者的语言规则进行梳理总结后形成的规则体系被称为描述性语法。规定性语法这是一种截然不同的语法概念它试图为语言使用确立一套正确性标准这类语法与语言的实际使用规律关联甚微。语言的构成要素语言学研究的语言体系可划分为多个相互关联的组成部分这些划分是语言学研究中约定俗成且带有一定任意性的分类方式。各构成要素的解释如下音系学音系学是语言的首要构成要素研究特定语言的语音系统。该词源自古希腊语其中 “phone” 意为 “声音” 或 “语音”。语音学是音系学的一个分支从语音的产生、感知及物理属性角度研究人类语言的语音。国际音标IPA是音系学研究中对人类语音进行规范表征的工具。在国际音标体系中每个书写符号唯一对应一种语音反之亦然。音位音位是语言中区分不同词汇的语音单位在语言学中音位通常用斜杠标注。例如音位 /k/ 出现在 kit小桶、skit滑稽短剧等词汇中。形态学形态学是语言的第二大构成要素研究特定语言中词汇的结构与分类。该词源自古希腊语“morphe” 意为 “形式”。形态学探究语言中词汇的构成规则即语音如何组合成语素如前缀、后缀、词根这类有意义的单位同时也研究词汇如何归为不同的词性。词位在语言学中词位是形态分析的抽象单位对应一个词汇的所有形态变化形式。词位在句子中的使用方式由其语法范畴决定词位可以是单个词汇也可以是多词组合。例如talk说话是单字词位有 talks、talked、talking 等多种语法变体“speak up大声说”“pull through渡过难关” 等则属于多词词位。句法学句法学是语言的第三大构成要素研究词汇如何组合成更大的语言单位以及组合的顺序和规则。该词源自古希腊语 “suntassein”意为 “整理、排列”。句法学的研究对象包括句子的类型与结构、从句及短语的相关规则。语义学语义学是语言的第四大构成要素研究语言如何传递意义这些意义既可以与外部客观世界相关联也可以与句子的语法结构相关。该词源自古希腊语 “semainein”意为 “表示、表明、发出信号”。语用学语用学是语言的第五大构成要素研究语言的功能及其在具体语境中的使用规律。该词源自古希腊语 “pragma”意为 “行为、事务”。语法范畴语法范畴可定义为某一语言的语法体系中具有共同特征的语言单位或语法特征的类别这些单位是构成语言的基本模块语法范畴也被称为语法特征。以下为常见的语法范畴分类数数是最简单的语法范畴主要包含两种形式单数和复数。单数表示 “一个” 的概念复数表示 “一个以上” 的概念。例如dog狗单数/dogs狗复数、this这个单数/these这些复数。性语法性通过人称代词和第三人称的形式变化体现常见的语法性形式有第三人称单数的 he他、she她、it它第一、二人称的 I我、we我们、you你 / 你们第三人称复数 they他们 / 她们 / 它们属于通性或中性。人称人称也是基础的语法范畴主要分为三类第一人称指说话者自身第二人称指听话者即被说话的对象第三人称指说话所提及的人或事物。格格是较难掌握的语法范畴之一用于表示名词短语在句中的语法功能或名词短语与动词、其他名词短语之间的语法关系。人称代词和疑问代词主要有三种格的形式主格充当句子的主语例如I我、we我们、you你 / 你们、he他、she她、it它、they他们 / 她们 / 它们、who谁所有格表示所属关系例如my/mine我的、our/ours我们的、his他的、her/hers她的、its它的、their/theirs他们的 / 她们的 / 它们的、whose谁的宾格充当句子的宾语例如me我、us我们、you你 / 你们、him他、her她、them他们 / 她们 / 它们、whom谁。级级这一语法范畴主要适用于形容词和副词分为三种形式原级单纯描述事物的属性特征例如big大的、fast快的、beautiful美丽的比较级表示两个事物之间某一属性的程度差异即 “更……”例如bigger更大的、faster更快的、more beautiful更美丽的最高级表示三个及以上事物之间某一属性的最高程度即 “最……”例如biggest最大的、fastest最快的、most beautiful最美丽的。定指与不定指这两个概念较为简单定指表示所指对象是说话者和听话者都已知、熟悉或可识别的不定指则表示所指对象是双方未知或不熟悉的。这一概念可通过冠词与名词的搭配使用理解定冠词the不定冠词a/an。时态时态属于动词的语法范畴是通过语言形式表示动作发生的时间时态建立了动作发生时间与说话时刻之间的关联。时态大致分为三类一般现在时表示动作发生在当下例如Ram works hard.拉姆努力工作。一般过去时表示动作发生在说话时刻之前例如it rained.下雨了。一般将来时表示动作发生在说话时刻之后例如it will rain.将要下雨了。。体体表示对动作或事件的观察视角主要分为两种类型完成体将动作或事件视为一个完整的整体例如英语中的一般过去时句子 “yesterday I met my friend.昨天我见到了我的朋友。” 就属于完成体因该视角下事件是完整结束的进行体将动作或事件视为正在进行、尚未完成的过程例如英语中的现在分词形式句子 “I am working on this problem.我正在解决这个问题。” 属于进行体因该视角下事件处于持续进行中。语气语气的定义相对复杂简单来说它表示说话者对所述内容的态度是动词的语法特征之一与时态、体相互独立。常见的语气包括陈述语气、疑问语气、祈使语气、禁令语气、虚拟语气、可能语气、愿望语气此外动名词和分词也会体现相应语气特征。一致关系一致关系也被称为 “呼应”指一个词的形式会根据与之相关的其他词发生变化即让不同词汇或词性在某一语法范畴上保持形式一致。常见的一致关系基于以下语法范畴形成人称一致主要体现为主谓一致例如英语中只能说 I am、He is而不能说 He am、I is数的一致同样主要体现为主谓一致不同的人称和数对应特定的动词形式例如第一人称单数 “I really am.我确实是。”、第二人称复数 “We really are.我们确实是。”、第三人称单数 “The boy sings.这个男孩唱歌。”、第三人称复数 “The boys sing.这些男孩唱歌。”性的一致在英语中主要体现为代词与先行词在性上保持一致例如He reached his destination.他到达了目的地。、The ship reached her destination.这艘船抵达了目的地。格的一致格的一致在英语中并非显著的语法特征例如who came first − he or his sister?谁先到的 —— 他还是他的姐姐 / 妹妹。口语句法学英语书面语和口语的语法虽有诸多共性但也在多个方面存在差异。以下特征是二者语法的主要区别言语不流畅与修正这是英语书面语和口语语法最显著的区别这类现象单独来看被称为 “言语不流畅”整体则被称为 “言语修正”。言语不流畅主要包括以下表现填充词说话者在语句中会使用一些无实际语义的填充词也叫停顿填充词例如uh呃、um嗯待修正部分与修正部分语句中被重复的词汇片段为待修正部分同一位置被替换的词汇则为修正部分。举例理解Does ABC airlines offer any one-way flights uh one-way fares for 5000 rupees?ABC 航空公司有单价 5000 卢比的单程航班呃单程票价吗在这个句子中“one-way flights单程航班” 是待修正部分“one-way fares单程票价” 是修正部分。话语重启在填充词停顿后会出现话语重启的现象。例如在上述例句中说话者先开始询问 “单程航班”随后停顿并使用填充词修正后重新开始询问 “单程票价”这就是话语重启。词汇片段说话时人们有时会说出不完整的词汇片段例如wwha-what is the time?几 —— 几点了句中的 “wwha-” 就是词汇片段。
在Edge浏览器中安装Google Chrome扩展 在Edge浏览器中安装Google Chrome扩展 需要安装的扩展 下载网站上的图片的插件、评分高达4.9 Image downloader - Imageye 步骤 首先在Google Chrome web store中找到需要安装的插件;复制该插件的网页地址, 粘贴到Edge浏览器中;Edge浏览器中自动出现获取扩展选项; 点击获取… 2026/5/17 10:24:33
zhi网已死,你还不知道这款Ai工具吗? 各位小伙伴好,这里是[AI小白实战派]。最近我在深挖各种AI效率利器时,挖到了一个能救各位毕业党于水火的黑科技产品——checkyear。看到它的第一眼,我脑海里全是当年熬夜肝论文、疯狂掉头发的惨痛回忆。快来看看这些坑你踩过没:好不… 2026/5/17 10:24:32
刚接触FPGA那会儿总觉得交通灯项目太“教科书“,真自己动手才发现时序控制藏着不少坑。这次咱们用Verilog搞个带特殊左转信号的交通灯系统,直接上干货 基于fpga的交通灯设计,要求:A通道绿灯亮30S,黄灯亮5S,左拐灯亮15S,黄灯亮5S,这个过程中B通道一直亮红灯,之后A通道亮红灯,B通道绿灯亮40S,之后黄灯亮5S,之后左… 2026/7/5 6:06:24
对于陌生平台和软件,把握的思路 这里还要讲一个东西 其实在现代 有一个门槛,一直没人说 就是普通人看不懂复杂的软件工具,和网页平台 其实,我有疑惑的 为什么这些东西创造者,完全不在乎用户能否理解 可能公司考核指标不一样吧 商业化,利润者一块&… 2026/7/5 12:43:53
如何3分钟为Android Studio安装中文语言包:完整界面汉化终极指南 如何3分钟为Android Studio安装中文语言包:完整界面汉化终极指南 【免费下载链接】AndroidStudioChineseLanguagePack AndroidStudio中文插件(官方修改版本) 项目地址: https://gitcode.com/gh_mirrors/an/AndroidStudioChineseLanguagePack 你是… 2026/7/5 12:39:52
图像识别进阶——基于迁移学习的天气分类实战 1. 迁移学习在天气分类中的优势天气图像分类是计算机视觉中一个非常实用的应用场景。想象一下,如果你正在开发一款户外运动APP,能够通过手机摄像头实时识别当前天气状况,给用户提供穿衣建议或活动推荐,那该有多酷!但现… 2026/7/5 12:39:52
YOLO小目标检测优化:Wise-IoU损失函数实战 1. 为什么小目标检测总是定位不准?在目标检测领域,YOLO系列算法因其速度和精度的平衡而广受欢迎。但当我们处理小目标检测任务时,经常会遇到一个令人头疼的问题——检测框定位不准。这个问题在无人机航拍、医学影像分析、工业质检等场景尤为突… 2026/7/5 12:37:52
OpenCV 4.9.0 图像分割实战:Python 实现 3 种边缘检测算法对比 OpenCV 4.9.0 图像分割实战:Python 实现 3 种边缘检测算法对比边缘检测是计算机视觉中最基础且关键的技术之一,它能有效提取图像中的结构信息,为后续的目标识别、场景理解等任务奠定基础。本文将基于 OpenCV 4.9.0,通过 Python 代… 2026/7/5 12:37:52
4-20mA电流环工业应用与STM32+XTR116设计详解 1. 4-20mA电流环标准与工业应用背景在工业自动化领域,4-20mA电流环传输堪称模拟信号传输的"黄金标准"。这种传输方式之所以能历经数十年而不衰,核心在于其独特的抗干扰特性——电流信号在长距离传输时不受线路电阻变化影响,且能通过… 2026/7/5 12:35:51
6个月转型AI工程师:实战路径与核心技能 1. 项目概述:6个月转型AI工程师的可行性路径在2023年大模型技术爆发的背景下,AI工程师岗位需求同比增长217%(LinkedIn数据)。不同于传统算法工程师需要3-5年培养周期,现代AI工程师更侧重工程化落地能力。我在硅谷科技公… 2026/7/5 0:01:32
TPAFE0808与PIC18F87K22的多通道信号采集方案 1. 项目背景与核心需求在工业自动化、医疗设备和科研仪器等领域,多通道信号采集与系统监测是基础且关键的技术需求。传统方案往往面临通道数量不足、信号调理复杂、系统集成度低等问题。TPAFE0808作为一款8通道模拟前端芯片,与PIC18F87K22微控制器的组合… 2026/7/5 0:01:32
STC3115与PIC18LF26K80构建高精度电池管理系统 1. STC3115与PIC18LF26K80在电池管理系统中的核心价值在现代电子设备中,电池管理系统(BMS)的重要性不亚于设备的核心处理器。STC3115作为一款高精度电池电量监测IC,与PIC18LF26K80微控制器的组合,构成了一个既能精确监控又能智能管理的完整解… 2026/7/5 0:05:36
6个月转型AI工程师:实战路径与核心技能 1. 项目概述:6个月转型AI工程师的可行性路径在2023年大模型技术爆发的背景下,AI工程师岗位需求同比增长217%(LinkedIn数据)。不同于传统算法工程师需要3-5年培养周期,现代AI工程师更侧重工程化落地能力。我在硅谷科技公… 2026/7/5 0:01:32
TPAFE0808与PIC18F87K22的多通道信号采集方案 1. 项目背景与核心需求在工业自动化、医疗设备和科研仪器等领域,多通道信号采集与系统监测是基础且关键的技术需求。传统方案往往面临通道数量不足、信号调理复杂、系统集成度低等问题。TPAFE0808作为一款8通道模拟前端芯片,与PIC18F87K22微控制器的组合… 2026/7/5 0:01:32
STC3115与PIC18LF26K80构建高精度电池管理系统 1. STC3115与PIC18LF26K80在电池管理系统中的核心价值在现代电子设备中,电池管理系统(BMS)的重要性不亚于设备的核心处理器。STC3115作为一款高精度电池电量监测IC,与PIC18LF26K80微控制器的组合,构成了一个既能精确监控又能智能管理的完整解… 2026/7/5 0:05:36