随着智能门禁、儿童看护摄像机、视频通话摄像机、移动摄像机等带屏设备的普及,App与设备之间的双向视频通话已经成为越来越多产品的标配能力。
然而,对于大多数设备而言,目前的视频通话能力仍停留在最基本的“查看与简单沟通”阶段。看看孩子有没有到家、确认老人是否安全、看一眼宠物状态、与门口访客简单沟通……
在实际使用过程中,用户往往希望通过App与设备端连接获得更丰富、更有参与感的远程交流体验,而不仅仅是一次信息确认。
On-App AI带来了一种全新的视频互动形式:让视频通话不再只是传递画面和声音。用户只需在视频通话过程中自然做出“比心”“点赞”“OK”“比耶”“挥手”等手势,App与设备屏幕就能同步出现对应动效,为视频通话增加即时的视觉反馈。
涂鸦On-AppAI视频对话手势互动,是一个内置在品牌App中的视频通话增强能力,在不改变用户使用习惯的前提下,为视频沟通增加了一层有乐趣、有反馈、有温度的互动体验。
01 真实场景再现
李先生家里装了一台带屏智能门铃。平时出差在外时,他会通过App和家里的孩子视频:
“今天作业写完了吗?”,“写完了。”
“吃饭了吗?”,“吃了。”
几句简单的对话之后,孩子很快就觉得无趣,跑回房间自己玩,一次视频通话往往不到一分钟就结束。
对李先生来说,门铃视频通话更像是一个远程确认工具:确认孩子的状态,确认家里没问题。它有功能价值,却缺少情感互动。
接入On-App AI手势互动后,视频通话变得不一样了。
一天晚上,李先生像往常一样打开App与孩子视频。他对着摄像头比了一个“心”,App画面中立刻飘出爱心动效,设备屏幕上也同步出现了相同的动画。
孩子一下被吸引住了,马上比了一个“点赞”,随后又尝试了“OK”“比耶”“挥手”,每个手势都触发了不同的动效。原本几十秒就结束的通话,变成了亲子间的互动游戏。
对于李先生来说,AI不再只是隐藏在后台的一项技术能力,而是让原本用于“打个照面”的视频通话,变成了一次更轻松的远程陪伴。
案例解析:
过去,App只负责传递画面和声音。孩子简单回答几句“我在写作业”“我吃过饭了”之后,很快就失去兴趣,通话容易冷场。
现在,On-AppAI手势互动让视频通话“活”了起来:
识别“比心”“点赞”“OK”“比耶”“挥手”等自然手势;
App与设备屏幕同步弹出对应动效,双方都能即时看到反馈;
识别在端侧完成,原始画面无需上传云端;
手势与动效可由品牌自定义,替换为品牌专属素材;
不改变原有视频通话流程,只为通话增加一层互动体验。
这类体验的关键,不是让用户感知“AI很复杂”,而是让用户觉得“通话更好玩了”。
在用户体验上,On-AppAI手势互动主要解决三个问题:
1. 让视频通话有反馈:用户不只是看和说,还能通过手势触发即时回应。
2. 让远程陪伴有参与感:孩子、老人、宠物主人、访客,都可以用简单动作参与互动。
3. 让视频能力有记忆点:相比普通通话,“比一个手势,双方同步出现动效”更容易被记住。
02 背后的技术方案
1、用户使用流程
用户在视频过程中完成指定手势后,系统即可实时识别,无需学习额外操作,不影响正常视频通话,互动更加自然流畅,让通话双方都能获得即时的情绪反馈。
2、技术实现流程
On-AppAI手势互动整体采用端侧实时识别+双端动效同步的架构,识别在本地完成:
iOS端:基于系统原生Vision框架,调用其手部姿态检测(Hand Pose Detection)能力,对视频流逐帧识别21个手部关键点,再通过手势分类逻辑判断是否命中“比心/点赞/点踩/手掌/OK/比耶”等目标手势。无需引入额外模型包,包体增量极小,性能由系统层保障。
Android端:基于Google MediaPipe Hands模型,在端侧完成手部关键点检测与手势分类,对低中端机型也能保持稳定帧率。模型经过裁剪与推理加速调优,识别延迟控制在交互可接受范围内。
双端同步动效:命中手势后,App端立即渲染动效,并通过通话信令通道同步给设备端,由设备屏幕渲染对应动效,实现“我比一个手势,我和对方都看到”的双向反馈。
3、技术优势对比
On-AppAI手势互动的价值,不只是多识别了几个手势,更是以轻量化的方式把视频通话从“通信工具”升级为“互动场景”。

4、App展示效果
支持的手势一览:支持多种日常高频手势,包括比心、点赞、OK、比耶、挥手等。
5、强大的技术底座
以下是涂鸦智能On-App AI整体架构图,包含设备端、云端模型管理、移动端端侧AI、AI场景化模板,四大模块。
涂鸦On-App AI不只是单点算法能力,而是一套从设备采集、模型管理、端侧推理到App场景化呈现的完整方案。
03 多业务场景合作赋能
On-AppAI手势互动不是单一算法功能,而是一个能同时服务品牌、采购、渠道、开发者和终端用户的场景化AI模块。
▍对品牌方:打造更有温度的产品体验
视频通话已经不再是稀缺能力,带屏摄像机、智能门禁、移动摄像机等设备都在提供类似功能。真正需要解决的是:用户为什么愿意更频繁地打开它?On-AppAI手势互动让通话从“远程查看”升级为“情感互动”,强化“更有温度、更懂用户”的产品心智。
▍对采购:投入产出更清晰
相比抽象的AI模型指标,On-AppAI手势互动的价值更直观:提升视频通话使用频次,延长单次互动时长,增强App的情感属性,并为产品增加一个用户能直接感知的AI卖点。
▍对渠道方:卖点更容易演示
这不是参数升级,而是一个30秒内就能讲清楚的体验卖点。打开视频通话,比一个手势,App和设备屏幕同步出现动效,客户无需看文档,也能马上理解功能价值。
▍对开发者:集成边界更清晰
On-AppAI手势互动依赖系统能力或成熟端侧模型,模块边界清晰,主要包括手势识别、动效渲染、信令同步和设备端展示,便于快速集成、Demo化和后续扩展。
▍对终端用户:自然上手,轻松互动
用户不需要学习新功能,只要在通话中自然比出手势,就能获得即时反馈。无论是和家人视频、远程看宠物,还是和孩子互动,每一次通话都可以更轻松、更有趣。
04 可以扩展哪些品类?
智能门锁/门铃:提升高端产品体验
智能门锁/门铃原本更偏安防属性,用户主要用它看门口、接访客、确认家人是否到家。接入On-AppAI手势互动后,门锁/门铃可以从“远程查看工具”升级为“家庭互动入口”。
例如,孩子到家后对着门铃摄像头比一个“OK”,家长即可在App端看到确认动效;家长远程“比心”,孩子会在门铃屏上看到爱心反馈。这种体验会让门铃从冷冰冰的安防设备,变得更有家庭温度。
家庭中控屏:打造家庭互动中心
家庭中控屏位于家庭核心空间,天然适合作为家庭成员之间的互动中心。On-AppAI手势互动可以让中控屏的视频通话更生动,尤其适合亲子、老人、家庭成员之间的远程沟通。
品牌还可以结合家庭场景做更多扩展,例如:手势触发家庭留言;手势触发节日祝福;手势触发家庭任务完成反馈;手势触发智能场景,例如灯光闪烁、音乐播放等。
看护摄像头:降低远程沟通门槛
看护摄像头的核心场景是老人看护、宝宝看护和家庭安全。在这些场景中,沟通对象可能不适合复杂操作。
On-AppAI手势互动可以通过简单手势降低沟通门槛。例如老人对着摄像头比OK,家人即可知道“我没事”;孩子挥挥手,家长可以立即收到视觉反馈。
05 为什么选择涂鸦?
涂鸦提供的不仅仅是一项手势识别技术,而是一套能够快速落地、价值升级并构筑品牌护城河的商业方案。
▍强大的技术底座:
基于涂鸦成熟的AIKit+HomeSDK,提供从端侧模型(Vision/MediaPipe/CoreML等)、推理加速(CPU/GPU调优)到云端模型管理的全链路支持,并打通通话信令通道,实现App与带屏设备的动效同步。
▍极致的接入体验:
提供UI模板和TTT插件两种接入方式。无论你是资深开发者还是初级玩家,都能在短时间内完成集成,并支持自定义动效素材以匹配品牌视觉。
▍为品牌创造价值:
无需为设备配置高价AI芯片,通过App端侧识别即可实现旗舰级互动体验,让已出货的带屏设备瞬间焕新,通过功能升级提升品牌口碑与用户粘性。同时,涂鸦还提供统一的软硬件方案,帮助客户快速实现产品落地和商业化闭环。







