您的位置: 首页 >六安新闻>百姓关注>详细内容

昇挚科技深耕声学AI赛道:打造领先的机器人语音采集公司与人机语音交互公司

编辑:高方勇 来源:广告 浏览次数: 发布时间:2026-05-11 11:04:31 【字体:

  在人工智能与具身智能加速发展的背景下,语音正逐步成为人机交互的核心入口。如何让设备在复杂环境中“听得清、听得懂、能对话”,成为行业关注的关键问题。作为国内声学AI领域的重要技术力量,昇挚(广州)科技有限公司凭借深厚的技术积累与工程化能力,正加速成长为兼具技术实力与落地能力的机器人语音采集公司与人机语音交互公司。

  聚焦语音入口:打造机器人语音核心基础设施,破解复杂场景拾音难题

  在机器人应用场景中,语音采集是人机交互的第一环节,也是最具挑战的一环。相比传统设备,机器人通常工作于开放、动态且复杂的环境中,面临多源噪声干扰、远距离拾音、回声叠加以及多角色语音混杂等问题。

  昇挚科技围绕这些行业痛点,构建了完整的机器人语音采集解决方案,依托多麦克风阵列+前沿智能音频算法,实现远场高质量拾音与精准人声分离。在实际应用中,其技术可将语音信噪比提升40dB以上,有效拾音距离达到5米以上,并在复杂环境中实现接近98%的语音识别准确率,为机器人提供稳定可靠的语音输入基础。

  技术驱动:构建从采集到理解的人机语音交互体系

  作为一家技术驱动的人机语音交互公司,昇挚科技不仅解决“听见”的问题,更致力于实现“理解与交互”。

  公司核心技术覆盖语音前处理与识别全链路,包括AI回声消除(AEC)、AI人声增幅(AGC)、AI噪声抑制(ANS)以及语音识别(ASR)等关键模块。其中,回声消除残余低于-60dB,噪声抑制能力达到25~40dB,显著提升语音清晰度与系统稳定性。

  在此基础上,昇挚科技进一步融合大语言模型(LLM)能力,构建“芯片+音频算法+语义理解”的一体化架构,使语音交互从传统命令式控制升级为多轮对话与自然交流,显著提升用户体验。

  全链路交付:一站式软硬一体交付,快速落地降本增效

  区别于传统单点技术厂商,昇挚科技以“全链路交付能力”为核心优势,打通从语音采集到产品落地的完整路径。

  公司可为客户提供涵盖麦克风阵列设计、声学结构优化、音频算法集成、硬件模组开发以及整机系统调优在内的一站式解决方案。这种“软硬一体”的交付模式,有效缩短产品研发周期,降低客户集成成本,助力语音技术在机器人及智能终端快速模块化商用。

  场景落地:全领域覆盖,跨场景能力复用增值

  依托领先的机器人语音采集与人机语音交互能力,昇挚科技的解决方案已广泛应用于多个行业场景,包括:

  ·商业场景:展厅讲解、商业接待机器人

  ·工业场景:工业巡检、作业机器人

  ·民生场景:医疗辅助、智慧医疗系统

  ·家用场景:家庭服务、陪伴机器人

  同时,延伸至智能家电、IoT设备、智慧会议、智慧教育等领域,实现跨场景能力复用与价值放大。

  产研融合:名校产学研协同,筑牢持续创新壁垒

  在技术创新方面,昇挚科技与中山大学电子与信息工程学院建立深度合作,依托国家级科研平台,持续推动前沿算法研究与工程化落地。

  通过产学研融合,公司不仅能够快速突破技术瓶颈,还能将科研成果高效转化为实际产品能力,形成持续创新的良性循环。

  展望未来:赋予具身智能,迈向全球领先的人机语音交互技术企业

  随着具身智能与智能终端的快速发展,语音交互将成为未来人机交互的主流方式。机器人语音采集能力,也将从“功能模块”升级为“核心基础设施”。

  昇挚科技表示,未来将继续深耕机器人语音采集与人机语音交互领域,加大技术研发投入,拓展全球市场布局,不断提升在复杂环境下的语音感知与交互能力。

  以“让设备在真实世界中精准感知声音”为使命,昇挚科技正朝着成为全球领先的机器人语音采集公司与人机语音交互公司的目标稳步迈进,为智能时代的人机协同提供坚实的技术支撑。

  昇挚科技依托国家产学研政策扶持,与中山大学电子与信息工程学院(国家级工程研究中心)建立深度合作,形成持续迭代的科技创新模式,为技术落地提供坚实支撑。学院的科研团队为昇挚科技提供前沿的技术理论支持和科研成果,帮助公司解决技术研发过程中遇到的难题;昇挚科技则为学院提供真实的市场需求和产业应用场景,为科研成果的转化提供实践平台。这种产学研深度融合的模式,不仅让昇挚科技的技术研发始终紧跟学术前沿,也加速了高校科研成果的产业化进程,实现了校企双方的互利共赢。

  3. 全链条服务能力:针对企业级客户需求,提供覆盖复杂场景下近场、中场、远场的语音交互技术方案,以及从芯片、模组、PCBA到工业设计的一站式产品解决方案,满足多元化应用场景需求。

  (一) 【核心技术】:四大板块(AI回声消除、AI人声增幅、AI噪声抑制、ASR语音识别)

  【AI回声消除(AEC)】:消除回声,尤其是在通话或会议过程中,扬声器声音被麦克风拾取,导致反复回传形成回声。应用场景:视频会议、电话会议、语音助手等涉及麦克风和扬声器同时使用的场景。

  工作原理:AEC技术通过比较输入音频信号和输出信号,识别并减弱回声部分,确保只有原始的语音信号被传输。

  【AI本地人声增幅(AGC)】:自动调节音量,使得音频信号的强度保持在一个稳定的范围内,防止声音过大或过小。

  应用场景:语音通信、录音、音频采集系统中,用于在距离、音量差异较大的情况下确保音量一致性。

  工作原理:AGC监测输入信号的电平,当声音过弱时自动提高增益,过强时降低增益,从而保证输出信号的音量在适当范围内。

  【AI噪声抑制(ANS)】:抑制背景噪声,如风声、键盘声、交通噪声等,以提高语音的清晰度和质量。

  应用场景:语音通信、会议、录音、语音识别等场景,特别是在嘈杂环境中进行的音频处理。

  工作原理:ANS技术通过分析音频信号中的噪声成分并将其过滤,保留清晰的语音部分,从而提高音质。而ANR是通过使用麦克风捕捉环境噪声,并产生与噪声相位相反的声音信号来进行噪声抵消。

  【语音识别ASR】语音识别是人机交互和语音信号处理领域的核心技术,通过声学模型、语言模型和解码器三大核心模块,实现语音信号到文本序列的精准转换,核心挑战在于应用不同口语、背景噪声、语速变化等复杂场景。针对课堂师生高频互动场景,ASR超低延时确保教师提问、学生回答的语音实时转化为板书文本;低WER特性避免因口音、教室回声导致的识别错误,转写内容可直接用于课后课件整理,减轻教师文案工作负担。

  应用场景:语音识别是提升效率、优化体验的关键技术,它能替代人工完成大量语音转写工作,比如会议纪要、客服通话质检、医疗病例录入;同时也能赋能智能终端,让设备支持语音操控,助力企业降本增效,打造更自然的人机交互产品。

  人工智能发展至今,我们正迎来历史性的转折点。从早期的符号推理系统,到深度学习的重大突破,再到大语言模型的惊艳表现,人工智能已在数字世界展现出媲美甚至超越人类的认知水平。然而,真正的智能不应仅停留在虚拟空间,更需要通过物理世界来验证和体现。

  1. 具身机器人的诞生,加速了赛道整个人机交互的实践落地,更加速了人机交互的强需求,真正的智能必须建立在与环境互动的过程中,通过感知-行动-学习的循环不断进化。

  2.昇挚科技面向具身机器人领域,针对其人机交互场景的音频品质极为苛刻,并需要结合自身业务规划做量身定制的音频设计及方案依赖。昇挚科技可提供行业顶尖的具身机器人语音全链路处理总体交付方案包含音频采集、处理、唤醒、角度定位、播放全链路的音频算法、软件、硬件、声学总体设计及交付,深度融合自适应波束形成、深度学习降噪、实时回声消除等前沿音频处理技术与轻量化嵌入式算法,旨在系统性解决机器人在展厅、工业、医疗等复杂环境下语音采集与处理时面临的多源噪声干扰、远距离回声混响、动态音量波动、角色分离,声纹识别离等诸多行业共性难题。通过构建从麦克风阵列信号采集到语音特征优化的全链路处理机制,可将语音信噪比提升40dB以上,语音识别准确率提升到98%,有效拾音距离不小于5米,10cm和5mASR识别准确性下降不超过5%, 10cmASR识别准确率与厂商demo基本一致,下降不超过1%,为终端用户带来更自然、高效、沉浸式的智能交互体验,从而全面增强机器人在展厅演示、商业接待、特殊作业、家庭服务等各类应用场景中的环境适应性与实际使用价值。

  3. 基于昇挚团队十余年在音频信号处理、AI语音增强、阵列麦克风、噪声抑制及人机交互领域积累的核心技术经验与工程化落地能力,我们创新打造集算法开发、硬件设计、结构设计、声学设计、系统集成与技术支持于一体的一站式语音增强前处理整体交付方案,全面负责具身机器人的音频交付体验,助力具身机器人实现语音交互能力的全面升级与场景化赋能。

  【智能IOT硬件解决方案】为智能陪伴玩具、扫地机器人及智能家电等智能设备厂家提供全链路语音交互软件、AI芯片、语音交互模组、智能中控终端等软硬一体化解决方案。同时,也为可穿戴设备、办公设备、教育设备等消费电子产品,提供前端信号处理、微型化麦克风阵列模组、长语音识别等低功耗、高性能的技术解决方案。

  (二) 音频解决方案1.【智慧医疗】:1.医疗DSA对讲:专为适配医院机房的专用对讲系统,解决机房屏蔽、设备噪声等造成的沟通难题,是介入手术高效协作和医患安全的重要保障。一方面实现手术室与控制室、护士站的实时双向对讲,清晰传递指令、患者生命体征等关键信息,另一方面具备降噪处理能力,能过滤掉DSA设备运行的杂音,同时支持语音信号的稳定传输,不受铅环境的信号干扰。解决DSA手术中多岗位协同沟通的痛点,且不会干扰DSA设备运行,沟通更直接高效。

  2.医疗CT:CT设备运行时会产生较强的机械噪音,且CT室多存在电磁屏蔽设计以保障设备成像精度,普通通讯设备易受干扰或信号受阻。医疗CT对讲系统采用针对性设计,一方面能过滤CT机运转的背景杂音,让语音指令清晰传递;另一方面其信号传输可适配电磁屏蔽环境,避免与CT设备相互干扰,确保控制室和检查室间通信稳定。

  3.医疗ASR:基于人工智能语音合成、语音识别、自然语言处理等技术,重新定义超声报告输写模式,辅助医生使用语音高效书写超声报告。通过与医院现有超声系统对接,在不影响日常工作的前提下,优化超声科医生工作流程,医生在为患者检查时,通过语音方式调用报告模板、内容填槽等操作,实现所说所述即所得,从而一边进行超声检查,一边使用语音完成超声报告书写的工作。

  2.【智慧会议/教育】:1:智慧会议/教育:多麦克风阵列处理算法,主要用于通过多个麦克风接收的信号进行处理,实现远场拾音。此算法核心功能包括定向性增强、噪声抑制、回声消除和声源定位等。通过对来自不同方向的声音信号进行合成或分离,这些算法能够提升语音通讯的清晰度,减少背景噪音,并提高声音捕捉的精度。这种技术广泛应用于会议通信系统、智能音箱、助听设备以及其他需要高质量音频输入的设备中。深度赋能,会议语音转录转写+角色分类+摘要提炼等。在会议纪要、议程的场景中实现文本实时转语音同步扩声,迟到参会人员可快速衔接会议进度;远程会议中,异地文字留言通过TTS转化为语音融入本地扩声,实现跨模态协同。

  2.智慧教育:通过分布式扬声器布局(如天花板阵列音箱、墙面隐形音箱)或波束成形技术,让空间内各位置的声压级差异控制在±2dB以内,避免“前排太响、后排听不清”的问题。结合回声消除(AEC)和噪声抑制(ANS) 技术,将系统延迟控制在人耳无法感知的范围(通常<20ms),消除环境回声和背景噪声,保证语音清晰度。我们无感扩声技术可实现48KHz高清采样,15毫秒超低延迟,搭配文本转语音技术(TTS),课件文本一键转语音播报,配合无感扩声全域覆盖,教师可提前预设讲解内容,重点知识点重复播放,减轻授课压力;支持残障学生文字材料实时转语音,提升课堂包容性。

  昇挚(广州)科技有限公司2024年正式启动技术能力商业化,公司注册地址在⼴州市天河区⾦硕⼀路11号汉银广场40层,创始团队在算法开发方面有着深厚的功底的同时,在硬件设计、软件优化、声学设计方面也积累了实践经验。其核心团队成员在语音处理、音频处理以及AI音频处理等多个细分领域都拥有专业背景和技术能力。公司基于“芯+LLM”战略布局研发人机交互平台、音频全链路模组方案,为具身机器人、IoT、医疗等领域提供自然语言交互解决方案,拥有自主产权的中英文综合语音技术,涵盖语音识别、语义理解、声纹识别等技术领域。

免责声明:本内容为广告,相关素材由广告主提供,广告主对本广告内容的真实性负责。本网发布目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,广告内容仅供读者参考,如有疑问请联系:0564-3996046。

扫一扫在手机打开当前页
【打印正文】