Text Dedup by Words|按词去重工具

按词去重工具 | Text Dedup by Words

按词去重工具 Text Dedup by Words

对空格 / 逗号 / 换行分隔的关键词进行去重,并保持可读输出(可保留原顺序或排序)。
Deduplicate keywords separated by spaces/commas/newlines, with readable output (keep order or sort).

1. 输入与选项 · Input & Options
Tip: 你可以把从 Excel / Word / 网页复制来的关键词直接粘贴到这里。
工具会把文本拆成“词条(token)”,再按规则去重。常见用法:SEO 标签去重、广告投放关键词整理、批量账号/名单清洗等。
The tool splits text into tokens, then removes duplicates based on your rules. Useful for SEO tags, ad keyword lists, bulk list cleanup, etc.
注意:默认会把多个分隔符视为同一种(比如连续空格、逗号、换行混用都可以)。
Note: By default, mixed delimiters are fine; consecutive delimiters are handled.
自动识别 · Auto:把空格、英文/中文逗号、分号、换行都当作分隔符(更省心)。
Auto: treats spaces, commas (English/Chinese), semicolons and newlines as separators (most convenient).
如果你需要“严格按逗号”或“严格按换行”,可以切换为固定模式,以避免把短语中的空格误拆分。
If you need strict comma-only or newline-only parsing, switch modes to avoid splitting phrases that contain spaces.

规则说明:若勾选“忽略大小写”,则 Apple / apple 会视为同一个词条(输出保留首次出现的写法)。
Rule: When case-insensitive is enabled, Apple/apple are treated as the same token (output keeps the first appearance).

保留原顺序 vs 排序:两者通常二选一。勾选排序时会自动取消“保留原顺序”。
Keep order vs Sort: usually choose one. Sorting will override “keep original order”.
去首尾空白:推荐开启,避免出现 “keyword” 与 “keyword␠” 被当成不同词条。
Trim: recommended to avoid treating “keyword” and “keyword␠” as different tokens.
3. 使用说明 · Notes
  • 这工具解决什么问题? · What does this tool solve?
    很多时候我们从网页、Excel、聊天记录里复制关键词,常会出现重复词、大小写混乱、分隔符混用(空格+逗号+换行), 导致粘贴到 SEO 标签、广告投放关键词、站内搜索词库时“又脏又难读”。本工具用最简单的方式把它们清洗成干净、可直接使用的列表。
    When you copy keyword lists from web pages, spreadsheets, or chat logs, you often get duplicates, inconsistent casing, and mixed separators (spaces/commas/newlines). This tool cleans the list into a readable, ready-to-use output.
  • 分隔符识别 · How tokenizing works
    自动识别(推荐):空格、逗号(,,)、分号(;;)、换行都会被视为分隔符; 也会自动吞掉连续分隔符(比如连续空格、连续逗号)。适合“杂乱输入”的日常情况。
    Auto (recommended): spaces, commas (English/Chinese), semicolons, and newlines are treated as separators, and repeated separators are handled gracefully—best for messy real-world input.
    如果你的关键词是短语(例如 “new york”),并且你希望它作为一个整体,不要被空格拆开, 那么请把“输入分隔方式”改为“仅逗号”或“仅换行”,并确保你的短语内部空格是保留的。
    If your keywords are phrases (e.g., “new york”) and you want to keep the space inside the phrase, choose comma-only or newline-only mode and make sure you separate phrases accordingly.
  • 忽略大小写 · Case-insensitive
    勾选后,Apple / apple / APPLE 会当作同一个词条,只保留第一次出现的写法(更贴近人工整理习惯)。
    When enabled, Apple/apple/APPLE are treated as the same token; the tool keeps the first-seen spelling for readability.
  • 保留原顺序 vs 排序 · Keep order vs Sort
    保留原顺序适合“你已经人工排好优先级”的关键词列表;
    排序适合“做词库、做对账”的场景,方便快速查找与比对。
    Keep order is best when your list already reflects priority. Sort A→Z is best for building dictionaries or doing audits.
  • 输出分隔方式 · Output formatting
    常见用途:
    – 逗号+空格:适合贴到文章标签、Meta keywords(如果你还在用)、或多数文本编辑环境。
    – 换行:适合贴到广告后台、批量导入工具、或需要一行一个词的系统。
    – 自定义:例如用 “ | ”、分号、Tab(\t)等,满足不同平台格式要求。
    Common choices: comma+space for tag fields, newline for platforms requiring one keyword per line, or custom separators like “ | ” or tab.
  • 关于统计信息 · About the stats
    “原始词条数”是拆分后的 token 数量;“去重后词条数”是 unique 数量;“移除重复”= 原始 – 去重后;“唯一率”可粗略判断你这份列表“重复程度”。
    Original tokens = tokens after splitting; Unique tokens = after dedup; Removed = difference; Unique rate indicates how repetitive the list was.
  • 隐私说明 · Privacy
    本工具在浏览器本地运行,不会上传你的关键词内容到服务器(除非你把代码自己改成了联网版本)。
    This runs locally in your browser; your text is not uploaded anywhere (unless you modify it to do so).

免责声明:本工具仅用于文本清洗与格式整理,不构成 SEO、广告投放或任何商业决策建议。
Disclaimer: This tool is for text cleanup and formatting only; it does not provide SEO, advertising, or business advice.