Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 4|回復: 0

年使用语料库证明个单词的句子有的

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 18:41:50 | 顯示全部樓層 |閱讀模式

概率出现不流畅并且该概率随着句子长度的增加而增加。数据集中至少有一种不流利的句子比例根据句子长度绘制以句子中的非流利即有效标记来衡量。句子越长越有可能出现不流畅的情况。在平衡流式不流畅检测的准确性和延迟中我们介绍了如何清理口语文本转录本的研究成果。我们通过查找并消除人们言语中的不流畅之处来创建更易读的人类言语文字记录和字幕。使用标记数据我们创建了机器学习算法可以识别人类语音中的不流畅之处。一旦确定了这些内容我们就可以删除多余的单词以使文字记录更具可读性。这还提高了处理人类语音转录的自然语言处理算法的性能。

我们的工作特别注重确保这些模型能够在移动设备上运行以便我们可以保护用户隐私并在连接性较低的情况下保持性能。基础模型概述我们的基础模型的核心是一个经过预训练的编码  格鲁吉亚电话号码列表 器具有亿个参数。我们使用标准的每个令牌分类器配置其中二进制分类头由每个令牌的序列编码提供。说明文本中的标记如何变成数字嵌入然后导致输出标签。我们通过继续对年数据集的评论进行预训练来完善编码器。评论不是语音数据而是比和书籍数据更加非正式和对话。这可以训练编码器更好地理解非正式语言但可能存在将数据中固有的一些偏见内化的风险。然而对于我们的特定用例该模型仅捕获文本的语法或整体形式而不是其内容这避免了与数据中语义级偏差相关的潜在问题。




我们对手工标记语料库例如上面提到的语料库的不流畅分类模型进行了微调。使用优化超参数批量大小学习率训练周期数等。我们还使用称为自我训练的知识蒸馏技术制作了一系列用于移动设备的小型模型。我们最好的小型模型基于具有万个参数的变体。这个较小的模型以的大小以为单位实现了与我们的基线相当的结果。您可以在年论文中详细了解我们如何实现此模型小型化。流媒体自动语音转录的一些最新用例包括自动实时字幕例如由的实时字幕功能生成的该功能会自动转录设备上播放的音频中的口语。为了在这种情况下消除不流畅性以提高字幕的可读性必须快速且稳定地进行。


回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|z

GMT+8, 22:32 , Processed in 0.031253 second(s), 19 queries .

抗攻擊 by GameHost X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |