OK,这就是实现的全部过程。但是,我们应该不满足上面的代码。既然都使用正则来去除字母,数字,那标点符号可以使用正则来去除对吧。
所以说,我们不必再创建一个表来存储标点符号了。

对于合并的结果集,UNION是去重的,UNION
ALL是不去重的,去重与不去重是两个目的,分别由UNION和UNION ALL实现
两个作用(功能)不同的东西,放一起比性能有什么意义?
这种问题真的是无聊至极,就好比“足球场上的某个中后卫和某个前腰哪个能力更强”一样没有可比性,
他们的作用本身就是不同的,难道说中后卫能力不行,把他撤下来,用一个牛逼的前腰球员替代中后卫,或者是前腰能力不行,撤下他用牛逼的中后卫替代?
这是在功能上的区别,至于性能,我个人认为对比起来没有任何意义。
如果非要放一起比的话,做同样的数据合并,
UNION因为要去重,相对UNION
ALL来说,(相对)当然会耗费更多的资源(耗费的资源多少跟性能无关,做的事情多,当然需要更多的资源)
但是一定要弄清楚,合并数据的时候,到底要不要去掉重复数据,这是最终结果对与错的问题,不是性能问题!

高并发:

Source Code

这里UNION的去重动作是通过merge实现,这里的merge
join并不是表与表之间的merge join
这里可以看出来,UNION产生的merge与 inner join产生的Merge的作用是有差异的

表类型:

图片 1图片 2

  UNION运算符在去重的时候,
  如果查询字段的第一个字段是聚集索引,那么会用merge
join的方式合并+去重。
  如果查询字段的第一个字段不是非聚集索引,那么首先会将两个(或者多个)结果集进行普通的合并,最后通过Sort
Distinct的方式去重。  
  且UNION运算之后的默认排序方式,受查询字段前后的方式影响。 

这一步,运行的结果如下:
图片 3

这里不讨论UNION和UNION ALL的性能了,
从另外一个点入手来发起问题
UNION与UNION
ALL最大的区别就是UNION会去重,那么问题就来了,这个去重是怎么实现的?去重会对查询的默认顺序集产生什么影响?

另外,你还要创建另外一张表,用来存储所有字符串中,分隔符号:
图片 4

UNION之后结果集的最终排序结果跟查询字段的顺序有关,
如果查询字段的顺序的第一个字段是聚集索引(或者主键),正如上文提到的,UNION的双方就会以merge的方式区中
如果查询字段的顺序的第一个字段是非聚集索引字段,UNION的过程是现将两个结果集合并起来(上文提到的Concatenation),然后再做sort排序去重
如下的实例能说说明这个问题,当查询字段的顺序发生变化之后,两者的执行计划完全不一致。

 

UNION去重的实现

 

 

 

 

DECLARE @r INT = 1,@rs INT = 0
    SELECT @rs = MAX([ID]) FROM [dbo].[DataSource]

    WHILE @r <= @rs 
    BEGIN
        DECLARE @Text NVARCHAR(100)
        SELECT @Text = [SourceText] FROM [dbo].[DataSource] WHERE [ID] = @r

        WHILE PATINDEX('%[A-Za-z0-9:,;]%',@Text) > 0     
            SET @Text = STUFF(@Text,PATINDEX('%[A-Za-z0-9:,;]%',@Text),1,' ')

        SET @Text = LTRIM(RTRIM(@Text))


        SELECT TOP 1 @Text = [WORD] FROM [dbo].[udf_Split](@Text,' ') WHERE LEN(ISNULL([WORD],''))> 0  ORDER BY [ID] DESC

        UPDATE  [dbo].[DataSource] SET [Result] = @Text  WHERE  [ID] = @r

        SET @r = @r + 1
    END

 

图片 5图片 6

图片 7

 

create table TestUnion1
(    

    Id1 INT PRIMARY KEY,
    Id2 tinyint,
    Name varchar(100)
);
create table TestUnion2
(
    Id1 INT PRIMARY KEY,
    Id2 tinyint,
    Name varchar(100)
);

insert into TestUnion1 values (500,9,'aaa')
insert into TestUnion1 values (700,3,'ccc')
insert into TestUnion1 values (200,7,'eee')


insert into TestUnion2 values (300,2,'bbb')
insert into TestUnion2 values (800,8,'ddd')
insert into TestUnion2 values (100,5,'fff')

--TestUnionALL1和TestUnionALL2中相同的数据
insert into TestUnion1 values (600,6,'xxx')
insert into TestUnion2 values (600,6,'xxx')

图片 8

  UNION和UNION
ALL的作用是不一样的,放在一起比性能没有任何意义,真不想趟这趟浑水。
  合并结果集,需要去重就用UNION,不需要去重就用UNION
ALL,如果两个结果集中没有重复的结果集,就用UNION ALL,
  这纯粹是需求驱动的,而不是UNION和UNION ALL的性能问题。

 

本文出处: 

 

图片 9

发表评论

电子邮件地址不会被公开。 必填项已用*标注