N-gram là gì? Chi tiết về N-gram mới nhất 2021

Bách khoa toàn thư mở Wikipedia

Bước tới điều hướng
Bước tới tìm kiếm

300px Six n grams frequently found in titles of publications about Coronavirus disease 2019%2C as of 7 May 2020.svg

Một vài n-gram thường tìm thấy trong các tiêu đề ấn bản về bệnh virus corona 2019.

Trong lĩnh vực ngôn ngữ học tính toán và xác suất, n-gram là một chuỗi tiếp giáp của n phần tử từ một mẫu văn bản hay lời nói cho trước. Các phần tử có thể là âm vị, âm tiết, chữ cái, từ hoặc các cặp cơ sở (base pairs) tùy theo ứng dụng. Các n-gram được thu thập điển hình từ một tập dữ liệu văn bản hoặc tập dữ liệu lời nói. Khi các phần tử là các từ, n-grams có thể được gọi là các shingle[cần giải thích].[1]

Sử dụng tiền tố số học, một n-gram có kích thước n là 1 được gọi là “unigram”; kích thước n = 2 gọi là “Bigram” (hoặc, ít phổ biến là “digram”); kích thước n = 3 là “Trigram”. Trong sinh học tính toán, một polyme hoặc oligomer với kích thước cho trước gọi là k-mer thay vì dùng n-gram, với các tên đặc biệt dùng tiền tố số học như “monomer”, “dimer”, “trimer”, “tetramer”, “pentamer”,…

Xem thêm[sửa | sửa mã nguồn]

  • Mô hình Markov ẩn
  • Tuple
  • Bài toán xâu con chung dài nhất

Tham khảo[sửa | sửa mã nguồn]

  1. ^

    Broder, Andrei Z.; Glassman, Steven C.; Manasse, Mark S.; Zweig, Geoffrey (1997). “Syntactic clustering of the web”. Computer Networks and ISDN Systems. 29 (8): 1157–1166. doi:10.1016/s0169-7552(97)00031-7.

  • Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press: 1999. ISBN 0-262-13360-1.
  • White, Owen; Dunning, Ted; Sutton, Granger; Adams, Mark; Venter, J.Craig; Fields, Chris (1993). “A quality control algorithm for dna sequencing projects”. Nucleic Acids Research. 21 (16): 3829–3838. doi:10.1093/nar/21.16.3829. PMC 309901. PMID 8367301.
  • Frederick J. Damerau, Markov Models and Linguistic Theory. Mouton. The Hague, 1971.
  • Figueroa, Alejandro; Atkinson, John (2012). “Contextual Language Models For Ranking Answers To Natural Language Definition Questions”. Computational Intelligence. 28 (4): 528–548. doi:10.1111/j.1467-8640.2012.00426.x.
  • Brocardo, Marcelo Luiz; Issa Traore; Sherif Saad; Isaac Woungang (2013). Authorship Verification for Short Messages Using Stylometry (PDF). IEEE Intl. Conference on Computer, Information and Telecommunication Systems (CITS).

Liên kết ngoài[sửa | sửa mã nguồn]

  • Google’s Google Book n-gram viewer and Web n-grams database (September 2006)
  • Microsoft’s web n-grams service
  • STATOPERATOR N-grams Project Weighted n-gram viewer for every domain in Alexa Top 1M
  • 1,000,000 most frequent 2,3,4,5-grams from the 425 million word Corpus of Contemporary American English
  • Peachnote’s music ngram viewer
  • Stochastic Language Models (n-Gram) Specification (W3C)
  • Michael Collin’s notes on n-Gram Language Models Lưu trữ 2019-10-24 tại Wayback Machine
  • OpenRefine: Clustering In Depth


Lấy từ “https://vi.wikipedia.org/w/index.php?title=N-gram&oldid=64902116”

Từ khóa: N-gram, N-gram, N-gram

LADIGI – Công ty dịch vụ SEO Google giá rẻ, SEO từ khóa, SEO tổng thể cam kết lên Top Google uy tín chuyên nghiệp, an toàn, hiệu quả.

Nguồn: Wikipedia

Scores: 4.9 (109 votes)

Có thể bạn quan tâm  Top 20+ Cuộc Thi Hoa Hậu Thế Giới 2019 - Hoa hậu Thế giới Việt Nam 2019 – Wikipedia tiếng Việt

100 lần tự tìm hiểu cũng không bằng 1 lần được tư vấn